Приложение D. Модуль «tokenizer»
Пред.		След.

Приложение D. Модуль «tokenizer»

Введение

Модуль морфологического поиска (называемый также алгоритмом выделения корней или токенизатором) используется для улучшения нахождения совпадений за счёт выделения в исходных сегментах и переводе склоняемых слов. Также модуль улучшает поиск в глоссарии.

Например, модуль морфологического поиска для английского языка определит, что строка «cats» (и, возможно, «catlike», «catty» и т. д.) имеет корень «cat», а «stemmer», «stemming», «stemmed» образованы от «stem». Алгоритм выделит в словах «fishing», «fished», «fish», и «fisher» общий корень «fish». Этот модуль особенно полезен для языков, в которых активно используются приставки, суффиксы и окончания. В качестве примера рассмотрим склонение слова «хороший» в словенском языке:

lep, lepa, lepo — единственное число, мужской, женский и средний род

lepši, lepša, lepše . — сравнительная степень, именительный падеж, мужской, женский и средний род соответственно. Во множественном числе:

najlepših — превосходная степень, множественное число, родительный падеж, мужской, женский и средний род.

Установка и использование

Модуль «Tokenizer» теперь поставляется вместе с ОмегаТ. ОмегаТ автоматически выбирает токенизаторы исходного языка и языка перевода в соответствии с настройками проекта. В диалоговом окне «Проект > Свойства...» можно выбрать другой токенизатор или настроить используемую версию.

Несовместимость

ОмегаТ не сможет запуститься, если в каталоге «/plugin» установлена более старая версия модуля «tokenizer». Перед запуском ОмегаТ удалите все файлы модуля из каталога «/plugin».