Arquivos de texto simples (na maioria dos casos arquivos com uma extensão .txt) contêm somente informação textual e não oferecem nenhuma maneira claramente definida de informar ao computar que linguagem contêm. O máximo que o OmegaT pode fazer em tal caso é presumir que o texto está escrito na mesma linguagem que o computador usa. Não há problema para arquivos codificados em Unicod usando a configuração de codificação de caractere de 16 bits. Porém, se o texto for codificado em 8 bits, você poderá se deparar com uma situação inusitada: ao invés de ter o texto exibido com caracteres japoneses...
...o sistema exibirá, por exemplo:
O computador, executando o OmegaT, tem Russo como idioma padrão, e portanto exibe os caracteres no alfabeto Cirílico e não em Kanjii.
Existem basicamente três maneiras de fazer isso funcionar no OmegaT. Todas envolvem a aplicação de fitros de arquivos no menu Opções .
abra o arquivo-fonte em um editor de texto que interprete corretamente sua codificação e salve o arquivo em
"UTF-8"
. Mude a extensão do arquivo de .txt
para .utf8.
O OmegaT lerá o arquivo como UTF-8 automaticamente. Está é a alternativa mais óbvia, extinguindo o problema a longo prazo.
- ou seja, arquivos com extensão .txt
: na seção
Arquivos de texto
da caixa de diálogo com os filtros de arquivo, mude a
Codificação do arquivo-fonte
de <auto> para a codificação que corresponde ao seu arquivo .txt
, por exemplo, para .jp no caso do exemplo acima.
for instance from .txt
to
.jp
for Japanese plain texts: in the
Text files
section of the file filters
dialog, add new
Source Filename
Pattern
(*.jp
for this example) and
select the appropriate parameters for the source and target
encoding
OmegaT has by default the following short list available to make it easier for you to deal with some plain text files:
.txt
files are automatically (<auto>)
interpreted by OmegaT as being encoded in
the computer's default encoding.
Você pode verificar ao selecionar o item
Filtros de arquivos
no menu
Opções
. Por exemplo, quando você tem um arquivo de texto em checo (muito provavelmente gravado no código
ISO-8859-2
), você só precisa mudar a extensão .txt
para .txt2
e o OmegaT irá interpretar o seu conteúdo corretamente. E, claro, para se garantir, considere converter esse tipo de arquivo em Unicode, ou seja, o formato de arquivo .utf8
.