Trabalhar com texto simples
Prev		Next

Trabalhar com texto simples

Codificação padrão

Arquivos de texto simples (na maioria dos casos arquivos com uma extensão .txt) contêm somente informação textual e não oferecem nenhuma maneira claramente definida de informar ao computar que linguagem contêm. O máximo que o OmegaT pode fazer em tal caso é presumir que o texto está escrito na mesma linguagem que o computador usa. Não há problema para arquivos codificados em Unicod usando a configuração de codificação de caractere de 16 bits. Porém, se o texto for codificado em 8 bits, você poderá se deparar com uma situação inusitada: ao invés de ter o texto exibido com caracteres japoneses...

...o sistema exibirá, por exemplo:

O computador, executando o OmegaT, tem Russo como idioma padrão, e portanto exibe os caracteres no alfabeto Cirílico e não em Kanjii.

A solução OmegaT

Existem basicamente três maneiras de fazer isso funcionar no OmegaT. Todas envolvem a aplicação de fitros de arquivos no menu Opções .

Alterar a codificação de seus arquivos para Unicode: abra o arquivo-fonte em um editor de texto que interprete corretamente sua codificação e salve o arquivo em "UTF-8" . Mude a extensão do arquivo de .txt para .utf8. O OmegaT lerá o arquivo como UTF-8 automaticamente. Está é a alternativa mais óbvia, extinguindo o problema a longo prazo.

Especifique a codificação de seus arquivos simples de texto: - ou seja, arquivos com extensão .txt : na seção Arquivos de texto da caixa de diálogo com os filtros de arquivo, mude a Codificação do arquivo-fonte de <auto> para a codificação que corresponde ao seu arquivo .txt, por exemplo, para .jp no caso do exemplo acima.

Alterar as extensões para os seus arquivos fonte de texto simples: for instance from .txt to .jp for Japanese plain texts: in the Text files section of the file filters dialog, add new Source Filename Pattern (*.jp for this example) and select the appropriate parameters for the source and target encoding

OmegaT has by default the following short list available to make it easier for you to deal with some plain text files:

.txt files are automatically (<auto>) interpreted by OmegaT as being encoded in the computer's default encoding.

.txt1 os arquivos serão codificados como ISO-8859-1, que abrange a maioria das línguas da Europa Ocidental .

.txt2 os arquivos serão codificados como ISO-8859-2, que abrange a maioria das línguas da Europa Central e Oriental

.utf8 files are interpreted by OmegaT as being encoded in UTF-8 (an encoding that covers almost all languages in the world).

Você pode verificar ao selecionar o item Filtros de arquivos no menu Opções . Por exemplo, quando você tem um arquivo de texto em checo (muito provavelmente gravado no código ISO-8859-2 ), você só precisa mudar a extensão .txt para .txt2 e o OmegaT irá interpretar o seu conteúdo corretamente. E, claro, para se garantir, considere converter esse tipo de arquivo em Unicode, ou seja, o formato de arquivo .utf8.