Tokenizers (ou stemmers) melhoram a qualidade das correspondências, reconhecendo palavras flexionadas nos dados da memória de tradução e da fonte. Também melhoram a correspondência de glossários.
Um stemmer do inglês, por exemplo, deve identificar a string "casas" (e possivelmente "casarão", "casinha" etc.) tomando por base a raiz "casa", e "portinhola", "portal", a partir de "porta". O algoritmo do stemmer reduz as palavras "pescar", "pescada", "pescaria" e "pescador" à palavra de raiz, "pesca". Isto é especialmente útil no caso de línguas que usam formas pré- e pós-fixadas das palavras a partir da raiz. Em um exemplo do esloveno, aqui está "bem" em todas as formas gramaticalmente corretas possíveis:
lep, lepa, lepo - singular, masculino, feminino, neutro
lepši, lepša, lepše . - comparativo, nominativo, masculino, feminino, neutro, resp. Forma plural do adjetivo
najlepših - superlativo, plural, genitivo para M, F, N
Os tokenizers vêm incluídos no OmegaT e ativados por padrão. O OmegaT seleciona automaticamente um tokenizer para a língua fonte e destino segundo as configurações de língua do projeto. É possível selecionar outro tokenizer (Tokenizer de língua) ou uma versão diferente deste (Comportamento do Tokenizer) na janela de propriedades do projeto.
Caso não haja nenhum tokenizer para as línguas atuais, o OmegaT usa o Hunspell (neste caso tenha certeza de que os dicionários Hunspell relevantes estejam instalados)
O OmegaT não funcionará se houver tokenizers na pasta /plugin. Remova todos os tokenizers da pasta /plugin antes de iniciar o OmegaT.