Руководство пользователя ОмегаТ 3.0

Работа с простыми текстовыми файлами

Кодировка по умолчанию

Простые текстовые файлы, в большинстве случаев имеющие расширение «txt», содержат только текст, и нет чёткого способа сообщить компьютеру, на каком языке этот текст написан. Самое большее, что ОмегаТ может сделать в этом случае, это считать, что текст написан на том же языке, что и язык, используемый операционной системой. Для файлов в 16-битной Юникод-кодировке такой проблемы не существует. Однако, если файл имеет 8-битную кодировку, может возникнуть следующая неприятная ситуация: вместо отображения текста на японском языке...

...программа покажет следующее:

Компьютер, на котором установлена ОмегаТ, работает на русском языке, и, соответственно, вместо иероглифов кандзи, программа пытается использовать кириллицу.

Подход ОмегаТ

В целом, в ОмегаТ есть три метода борьбы с этой проблемой. Все они основываются на использовании файловых фильтров в меню Параметры .

Change the encoding of your files to Unicode

откройте исходный файл в текстовом редакторе, который корректно распознаёт кодировку и сохраните файл в кодировке «UTF-8» . Измените расширения файла с .txt на .utf8. ОмегаТ автоматически распознает его как UTF-8 файл. Этот подход наиболее разумен, так как позволяет избавиться от многих проблем в дальнейшем.

Specify the encoding for your plain text files

то есть файлов с расширением .txt : в секции Текстовые файлы диалогового окна «Файловые фильтры» измените кодировку исходных файлов с «<auto>» на кодировку, соответствующую вашим исходным .txt-файлам, например, на «.jp» для примера выше.

Change the extensions of your plain text source files

например, для японских текстовых файлов с .txt на .jp: в секции Текстовые файлы диалогового окна «Файловые фильтры» добавьте новый Шаблон имени исходного файла (например, на *.jp для вышеприведённого примера) и выберите необходимые кодировки оригинала и перевода.

По умолчанию в ОмегаТ включены следующие настройки, чтобы вам было легче работать с некоторыми текстовыми файлами:

  • файлы .txt автоматически («<auto>») считаются сохранёнными в кодировке компьютера по умолчанию.

  • файлы .txt1 считаются сохранёнными в кодировке ISO-8859-1, которая покрывает большинство языков Западной Европы .

  • файлы .txt2 считаются сохранёнными в кодировке ISO-8859-2, которая покрывает большинство языков Центральной и Восточной Европы .

  • файлы .utf8 считаются сохранёнными в кодировке UTF-8 (она покрывает почти все языки мира).

Вы можете проверить эти настройки, выбрав пункт Файловые фильтры в меню Параметры . Например, если у вас есть текстовый файл на чешском (скорее всего, сохранённый в кодировке ISO-8859-2 ), вам нужно просто сменить расширение с .txt на .txt2 и ОмегаТ корректно распознает его содержимое. И, конечно, если вы хотите навсегда избавиться от этих проблем, подумайте о возможности сохранения таких файлов в Юникоде, то есть в формате .utf8 .