Как системы автоматизации перевода делят текст на сегменты

Как правило, один сегмент = одно предложение. Но, в приоритете у САП (CAT-программ, CAT tools) два невидимых непечатаемых знака.

Загружаем файл в САП, система извлекает из него текст, делит на сегменты и проект готов к переводу. Стоит учесть, что САП может разбить одно предложение на два или больше сегментов. Это усложнит работу переводчика, редактора и корректора. Часто неправильная сегментация негативно отражается на качестве перевода.

САП делит текст на сегменты, ориентируясь на знаки препинания и непечатаемые знаки.

Как правило, один сегмент = одно предложение. Конец предложения означают пять знаков препинания:

  • Точка «.»
  • Восклицательный знак «!»
  • Вопросительный знак «?»
  • Двоеточие «:»
  • Точка с запятой «;»

Но, в приоритете у САП два невидимых непечатаемых знака, по которым текст делится на сегменты:

  • Знак абзаца «¶»
  • Знак разрыва строки (мягкого переноса) «»

Когда отключен режим отображения непечатаемых знаков — разметка текста выглядит правильно, а значит файл готов к переводу. Стоит включить режим отображения непечатаемых знаков, и ситуация может измениться. Внутри предложения могут обнаружиться знаки абзаца или разрыва строки. Такое предложение САП разделит на два или больше отдельных сегментов. Часто это приводит к неправильному переводу потому, что переводчик не знает на сколько сегментов разбито предложение, номера нужных сегментов и последовательность разбивки. Знаки абзаца и разрыва строки показаны на скриншоте голубым цветом:

Текст в примере — результат автоматического распознавания в FineReader. САП создаст отдельный сегмент для каждой строки, хотя по факту на скриншоте три предложения. Девять сегментов вместо трех. Эти кусочки текста сложно перевести, чтобы получить правильный перевод исходного предложения.

Не знаете, какие файлы готовы к переводу, а каким требуется распознавание? Прочитайте статью о форматах файлов для перевода.

 

Yevhen Venherenko

Yevhen Venherenko

Оставьте комментарий