Программы памяти переводов работают с текстовыми единицами, которые называются «сегменты». ОмегаТ сегментирует текст двумя способами: по абзацам и по предложениям (сегментацию по предложениям иногда называют «сегментация на основе правил»). Чтобы задать тип сегментации, выберите пункт меню → и установите или снимите соответствующий флажок. В некоторых случаях, сегментация по абзацам может быть полезной, например, при творческом переводе, если переводчик захочет изменить порядок предложений. В остальных же случаях предпочтительной будет сегментация по предложениям. Если выбрана сегментация по предложениям, её правила можно настроить, выбрав в главном меню → .
Для многих языков правила сегментации уже разработаны, и скорее всего, вам их будет вполне достаточно. С другой стороны, в некоторых случаях возможность слегка изменить правила сегментации для работы с определённым текстом может оказаться очень полезной.
Осторожно: так как после изменения правил сегментация текста будет происходить иначе, возможно, что перевод придётся начать заново. В памяти проекта ранее переведённые сегменты будут помечены как «ничейные сегменты». Если во время работы с проектом вы измените настройки сегментации, то, чтобы изменения вступили в силу, проект придётся перезагрузить.
В ОмегаТ сегментация осуществляется следующим образом:
Сначала ОмегаТ просматривает текст для осуществления сегментации на уровне структуры. На этом этапе для сегментации используется только информация о структуре текста.
Например, для текстовых файлов сегментация может производиться по разрывам строк, пустым строкам или вообще не производиться. Сегментация файлов с форматированием (документы ODF, HTML-файлы и т. д.) осуществляется по тегам абзацев. Переводимые атрибуты объектов в XHTML или HTML можно извлечь как отдельные сегменты.
После сегментации исходного файла на структурные фрагменты, ОмегаТ начинает их сегментирование по предложениям.
Процесс сегментации можно описать следующим образом: представьте курсор, который движется по тексту, проходя один символ за раз. Для каждой позиции курсора в заданном порядке применяются правила, состоящие из шаблонов До и После , которые проверяют, подходит ли шаблон До к тексту слева и шаблон После к тексту справа от курсора. Если какое-либо из правил срабатывает, то либо курсор переходит к следующему символу без начала нового сегмента (т. н. правило-исключение), либо в текущей позиции курсора создаётся новый сегмент (т. н. правило разрыва).
Существуют два типа правил:
Разделяет исходный текст на сегменты. Например, предложение « Стоило ли это делать? Не уверен .» должно быть разделено на два сегмента. То есть, нужно определить правило разрыва для символа «?», за которым следует пробел и слово с прописной буквы. Флажок «Разрывы/исключения» определяет, является ли правило разрывом (флажок установлен) или исключением (флажок снят).
Определяет, в какой части текста НЕ должна происходить сегментация. Несмотря на точку, словосочетание «Mrs. Dalloway» не нужно разделять на два сегмента, поэтому нужно определить правило-исключение для строки Mrs (а также Mr, Dr, prof и т. д.) с точкой справа. Чтобы указать, что правило является исключением, оставьте флажок «Разрыв/исключение» снятым.
Стандартных правил разрыва должно быть достаточно для большинства европейских языков и японского. Тем не менее, у вас есть возможность определить для некоторых языков новые правила-исключения, чтобы получить более осмысленные и адекватные сегменты.
Все наборы правил сегментации с подходящим языковым шаблоном применяются в заданном порядке, так что правила для конкретного языка имеют более высокий приоритет, чем стандартные правила. Например, правила для канадского французского (FR-CA) будут иметь более высокий приоритет, чем правила для французского (FR.*) и правила по умолчанию (.*). Соответственно, и при переводе с канадского французского, сначала будут применяться именно правила для этого языка (если таковые существуют), затем общие правила для французского и стандартные правила.
Серьёзные изменения в правила сегментации вносить, как правило, не стоит, особенно после начала проекта, а вот небольшие правки (например, добавление распознавания нового сокращения) могут оказать весьма полезны.
Чтобы расширить или изменить существующий набор правил, просто выберите его в таблице. В нижней части окна появятся правила этого набора.
Чтобы создать набор правил для нового языкового шаблона, нажмите на кнопку Добавить в верхней части диалогового окна. Внизу таблицы в верхней части окна появится пустая строка (возможно, придётся подвигать полосу прокрутки, чтобы найти её). В соответствующие поля введите название и шаблон языка (см. список Приложение A, Языки - список кодов ISO 639 языковых кодов). Синтаксис поля «Шаблон языка» подчиняется правилам регулярных выражений. Если создаваемый вами набор правил соответствует шаблону «язык-страна» (а не «язык-*»), рекомендуется передвинуть его вверх, используя кнопку Вверх .
Заполните шаблоны До и После . Чтобы проверить синтаксис и правильность работы регулярных выражений, рекомендуется использовать специальные программы. За более подробной информацией обратитесь к разделу Регулярные выражения. Конечно, лучше всего начать с ознакомления с существующим набором правил.
Что нужно | До | После | Примечание |
---|---|---|---|
Начинать новый сегмент после точки («.») и до пробела, знака табуляции и т. д. | \. | \s | «\.» соответствует запятой. «\s» соответствует любому пробельному символу (пробелу, табуляции, символу начала новой страницы и т. д.) |
Не создавать сегмент после «Mr.» | Mr\. | \s | Это правило-исключение, поэтому соответствующий флажок должен быть снят. |
Начинать новый сегмент после «。» (японская точка) | 。 | Обратите внимание, что поле «После» остаётся пустым |
|
Не создавать сегмент после M., Mr., Mrs.и Ms. | Mr??s??\. | \s | Правило-исключение - см. использование «?» в регулярных выражениях |