Як системи автоматизації перекладу ділять текст на сегменти

Як правило, один сегмент = одне речення. Але, в пріоритеті у САП (CAT-програм, CAT tools) два невидимих недрукованих знака.

Завантажуємо файл в САП, система витягує з нього текст, ділить на сегменти і проєкт готовий до перекладу. Варто врахувати, що САП може розбити одне речення на два або більше сегментів. Це ускладнить роботу перекладача, редактора і коректора. Часто неправильна сегментація негативно відбивається на якості перекладу.

САП ділить текст на сегменти, орієнтуючись на знаки пунктуації та недруковані знаки.

Як правило, один сегмент = одне речення. Кінець речення позначають п’ять знаків пунктуації:

  • Крапка «.»
  • Знак оклику «!»
  • Знак питання «?»
  • Двокрапка «:»
  • Крапка з комою «;»

Але, в пріоритеті у САП два невидимих недрукованих знака, за якими текст ділиться на сегменти:

  • Знак абзацу «¶»
  • Знак розриву рядка (м’якого переносу) « »

Коли режим відображення недрукованих знаків вимкнено — розмітка тексту виглядає правильно, а значить файл готовий до перекладу. Варто увімкнути режим відображення недрукованих знаків, і ситуація може змінитися. Всередині речення можуть з’явитися знаки абзацу або розриву рядка. Таке речення САП розділить на два або більше окремих сегментів. Часто це призводить до неправильного перекладу тому, що перекладач не знає на скільки сегментів розбите речення, номера потрібних сегментів і послідовність розбивки. Знаки абзацу та розриву рядка показані на скріншоті блакитним кольором:

Текст в прикладі – результат автоматичного розпізнавання в FineReader. САП створить окремий сегмент для кожного рядка, хоча фактично на скріншоті три речення. Дев’ять сегментів замість трьох. Ці шматочки тексту складно перекласти, щоб отримати правильний переклад речення.

Не знаєте, які файли готові до перекладу, а яким потрібно розпізнавання? Прочитайте статтю про формати файлів для перекладу.

Yevhen Venherenko

Yevhen Venherenko

Додайте коментар