区别很小:我们将可以维持开启放在编辑器旁边并与之交互的窗口称为“窗口”,而将必须选择参数然后关闭之并刷新翻译活动的窗口称为“对话框”。
此对话框可以通过选择
→ 来进入您可以手动输入或者通过下拉菜单选择原文与译文语言。请记住:更改语言可能会导致当前使用的翻译记忆库变得无用,因为其语言对可能与新语言不匹配。
会显示所选语言所对应的分词器。
分割规则设置只影响 OmegaT 处理原文文件的方式。语句级分割是分割原文的主要方式,所以正常情况下应该选中该复选框。
在一些少见情况下,另一种选择,即按段落分割,可能会更好。更改此标志不会影响现有翻译记忆库中的片段。如果您在翻译中途决定从语句翻译切换至段落翻译,项目的内部翻译记忆库不会更改(OmegaT 可能会升级不使用语句分割的旧翻译记忆库,但反之则不然),但 OmegaT 会尝试通过组合现有的句子翻译来创建段落模糊匹配。
改变分割规则设置可能导致一些已经译好的片段被分拆或者合并。这实际上会让它们回到“未译”状态,因为它们和记录在翻译记忆库中的片段不再匹配,虽然它们的原始翻译依然存在。
如果原文文档中包含非独特片段,自动传播翻译复选框为用户提供了下面两种自动翻译的可能性:如果勾选,则第一个被翻译的片段将假定为默认翻译,其译文文本在翻译过程中会自动用于后继命中。当然,错译片段之后可以手动用
来纠正。如果未勾选自动传播复选框,则含有替代译文的片段会保持未译状态直到用户决定使用哪种译文。启用后,将从原文片段中移除所有格式化标签。这在处理内联格式并不真正有用的文本(如 OCRed PDF、转换不良的 .odt 或 .docx 等)时特别有用。正常情况下译文文档应当都能打开,因为只移除了内联标签。不可见的格式信息(即不会在 OmegaT 编辑器中显示为标签的那些)在译文文档中会得已保留。
此区域允许输入一个在每次使用“创建译文文档”之后都会应用的外部后处理命令(例如,用于重命名文件的脚本)。这个外部命令不能包含“管道”等,因此建议调用一个脚本。
分割规则通常适用于所有项目。但是,用户可能需要生成一组所讨论项目专用的规则。用此按钮打开对话框,激活分割设置首选项。
复选框,然后根据需要继续调整分割规则。新的规则集将与项目一起存储,不会干扰到通用的分割规则集。要删除项目专用的分割规则,取消勾选此复选框。更多信息关于分割规则的信息,参见
提示:
给定项目的分割规则集保存为 project/omegat/segmentation.conf
。
和上述类似,用户可以创建项目专用的文件过滤器,这些过滤器将与项目一起存储,且仅对当前项目有效。要创建项目专用的文件过滤器集合,点击文件过滤器首选项。
按钮,然后在打开的窗口中激活 复选框。更改后的过滤器配置的副本会随同项目一起存储。要删除项目专用文件过滤器,取消勾选此复选框。请注意,在菜单 中,将更改全局用户过滤器,而非项目的过滤器。有关此主题的更多信息,参见
提示:
给定项目的文件过滤器集保存为 project/omegat/filters.xml
。
在处理团队项目时,此窗口允许您定义远程文件夹和本地文件夹之间的映射(示例参见此处)。
定义项目专用的外部搜索源。
在这里你可以选择不同的子文件夹,例如包含原文文件的子文件夹、译文文件的子文件夹等。如果输入的文件夹名称尚不存在,OmegaT 会创建之。如果你决定修改项目的文件夹,要记住这并不会将现有文件从旧文件夹移动到新位置。
点击OmegaT 要忽略的文件或文件夹。被忽略的文件或文件夹:
可定义不会显示在编辑器窗格中、
不会纳入统计、
在译文文件创建过程中不会被复制到 /target 文件夹中。
在排除模式对话框中,可以添加或删除模式,也可以通过选定一行并按 F2 来编辑。可以按 ant 语法来使用通配符。
当 OmegaT 载入项目时会自动显示此窗口,在任何时候,按下
→ 也会显示此窗口。
注意:
可以通过在omegat.prefs
文件(可通过 → 菜单)中将
project_files_show_on_load
设置为
false
来禁止在打开时显示此窗口。
用 Esc 将其关闭。项目文件窗口显示以下信息:
将其打开,用项目中可翻译文件的总数。这些文件位于 /source 文件夹中且 OmegaT 要能识别其格式。此数字显示在“项目文件”标题旁边的括号内。
项目中所有可翻译文件的列表。点击任何一个文件将打开它进行翻译。
输入任何文本都会打开过滤器字段,其中可以输入文件名片段。可以用 上 和 下 方向键来选择文件,并按 Enter 键将其打开进行翻译。
注意:文件名(第一列)可以通过点击表头来按字母排序。也可以通过点击文件名并按下各个 移动 按钮来改变文件名的位置。
右键单击文件名会打开一个弹出窗口,可以打开原文文件和(如果存在)译文文件。
每个文件条目包括其名称、文件过滤器类型、编码和每个文件所包含的片段数
整个项目的片段总数、总独特片段数和已译独特片段数显示在底部
独特 片段集合是通过将所有片段去除重复片段计算得到的。(“独特”的定义是区分大小写的:“Run"”和“run”视为不同)
“片段数”和“独特片段数”之间的差距对文本中的重复情况提供了大致的概念。但是要注意,这些数字上并不能看出重复的相关程度:它们可能意味着有较长的句子重复了很多次(这种情况下你很走运)或者也可能是关键字表格(不太走运)。位于项目的 omegat 文件夹中的 project_stats.txt
内包含有更详细的片段信息,按文件细分。
修改分割规则可能会有改变片段/独特片段数量的效果。但是,一旦开始对项目进行翻译后,通常应当避免这么做。更多信息请参阅 分割规则 章节。
向项目中添加文件:
你可以通过点击“ ”按钮来向项目中添加原文文件。这会将所选择的文件复制到 source
文件夹并重新载入项目以导入新文件。还可以通过点击 按钮并提供相应的网址来从用 MediaWiki 编写的网页添加原文文件。
用 Ctrl + F 打开查找窗口,把你要查找的单词或短语输入 查找 框。
或者,可以在编辑器窗格、模糊匹配窗格或词汇表窗格中选择单词或短语,然后按下 Ctrl + F 。此单词或短语会自动输入到 查找 框中。可以同时打开多个查找窗口,不过不再需要的时候请关掉它们,免得把桌面搞得乱七八糟。
点击 查找 框中的下拉箭头可以访问最后 10 个查找条目。
查找窗口有它自己的菜单:
文件 > 查找转选区( Ctrl + F ):焦点重新转到查找字段,并选定其全部内容。
文件 > 关闭( Ctrl + W ):关闭查找窗口(与 Esc 相同)
编辑 > 插入原文( Ctrl + Shift + I )插入当前片段的原文。
编辑 > 替换为原文( Ctrl + Shift + R ):替换为当前片段的原文。
编辑 > 创建词条( Ctrl + Shift + G ):添加新词条。
无论是精确查找还是关键字查找,都可以使用通配符“*”和“?”。它们具有 Word 用户很熟悉的含义:
“*”匹配从给定单词的当前位置到结尾的零个或多个字符。例如,查找词“run*”
将匹配单词“run”
、“runs”
和“running”
。
“?”匹配任意单个字符。例如,“run?”
将匹配单词“runs”
和单词“running”
中的“runn”
。
匹配部分将以蓝色粗体显示。注意“*”和“?”在正则表达式中有特殊含义,因此此处所述的通配符查找仅适用于精确查找和关键字查找(见下文)。
用单选按钮选择方法。有以下查找方法:
查找包含指定的确切字符串的片段。精确查找以短语方式查找,即,如果输入了多个单词,则只会在完全按此顺序出现时才会被找出来。因此,查找 open file
会找到字符串
open file
的所有出现之处,但不会找到
file opened
或
open input file
。
查找以任意顺序包含全部指定关键字的片段。选择关键字查找来以任意顺序查找任意数量的单个完整单词。OmegaT 会显示所有包含全部指定单词的片段的列表。关键字查找类似于诸如 Google 之类因特网搜索引擎的“包含全部关键字”(AND 逻辑)搜索。因此,用
open file
进行关键字查找会找到字符串
open file
的所有出现之处,也会找到
file opened
、open input file
、file may not be safe to open
等的出现之处。
查找字符串将被视为正则表达式。例如,在上面的例子中,查找字符串——[a-zA-Z]+[öäüqwß]——会在译文片段中查找包含疑似来自德语键盘的字符的单词。正则表达式是一种强大的查找字符串实例的方法。
除了选定上述方法之一,您还可以再选择:
区分大小写 :查找将会对指定字符串进行精确匹配,即,会注意大小写。
空格可匹配不换行空格 :勾选此选项时,搜索条目中的空格可以匹配普通的空格字符或不换行空格(\u00A)字符。
在原文中: 在原文片段中查找
在译文中: 在译文片段中查找
在备注中: 在片段的备注中查找
在注释中: 在片段的注释中查找
已译或未译: 已译和未译片段中都进行查找。
已译: 只在已译片段中查找。
未译: 只在未译片段中查找。
显示:所有匹配的片段: 如果勾选,所有片段都会一一显示,即使它们在同一文档或不同文档中多次出现。
显示:文件名: 如果勾选,将在每个结果上方显示片段所在的文件名。
在项目中查找:
:勾选
项目记忆库
以在查找中包含项目记忆库(project_save.tmx file)。勾选
翻译记忆库
以在查找中包含位于 tm
目录中的翻译记忆库。勾选
词汇表
以在查找中包含位于 glossary
目录下的词汇表。
在文件中查找:
在单个文件或包含一组文件的文件夹中查找。对文件进行查找(与对翻译记忆库进行查找相对)时,OmegaT 会将查找限制在具有原文文件格式的文件内。因此,尽管 OmegaT 完全有能力处理 tmx
文件,但它并不会将其包含在“查找文件”的查找内。
如果点击 不区分全角/半角字符 选项后,查找全角形式(CJK 字符)会匹配半角形式,反之亦然。
按钮,就可以选择其他约束条件(翻译的作者或修改者、翻译的日期、排除孤立片段等)。勾选在查找字段输入字符串后,点击查找按钮会把项目中所有包含输入字符串的片段显示出来。由于 OmegaT 将完全相同的片段视为单一实体,因此只显示第一个独特片段。片段按在项目中出现的顺序显示。已译片段会以上面显示原文、下面显示译文的形式显示,而未译片段只显示原文。
双击某个片段可在编辑器中将其打开以进行修改(勾选 自动于编辑器同步 选项后只需单击即可)。随后可以切回查找窗口处理下一个结果片段,例如进行检查并在必要的情况下更正术语。
在查找窗口中,你可以使用标准快捷键( Ctrl + N 、 Ctrl + P )从一个片段移动至另一个。
你可能会同时打开多个查找窗口。可以通过查看其标题来快速确认其内容:标题中会包含所使用的查找词。
为了跟轻松地在查找结果集中导航,可以将查找应用到编辑器上。按下底部的 过滤器 按钮来将编辑器窗口中显示的条目限制为当前查找所匹配的那些。可以用常规的导航操作进行跳转,例如转到下一个符合当前查找约束条件的(未译)片段。
注意:
查找可能会被限制为 1000 个条目,因此如果查找常见短语,编辑器会只显示这 1000 个匹配的条目而非所有符合查找约束条件的条目。
某个文件可能没有匹配的条目,因此会显示空白。
如果查找结果删除了重复项,则这些重复项不会出现在编辑器中。
要删除过滤器,请按 删除过滤器 按钮,或重新载入项目。
用 Ctrl + K 打开查找并替换窗口,把你要替换掉的单词或表达式输入到 查找 框里。
然后点击 查找 按钮来显示所有相应的出现之处。
在 替换为 框内输入新的单词或短语(不支持正则表达式),然后点击以下任一选项:
全部替换: 对所有出现之处进行操作(在显示出现次数的确认窗口之后)。
替换: 通过 编辑器窗格头部 的按钮“一个接一个”地执行替换。点击 替换下一个 或 跳过 ,然后用 结束 终止替换操作。
关闭: 关闭窗口,不做任何改变。
查找选项与显示在查找窗口中的那些类似。
只有一点不同:勾选 未译 来对尚未翻译的片段同样执行查找与替换。
为了使其成为可能(查找与替换只对翻译记忆库进行操作),OmegaT 会在进行替换操作之前将原文片段复制到译文片段。如果对于给定片段没有发生替换,译文片段会被“清空”,即,它会维持未译状态。
执行对齐操作可以从已经翻译过的单语言文档创建双语翻译记忆库。
要访问此窗口,请选择
→ 。如果对齐情况看起来尚可改进,可以试着改变参数。在大多数情况下,平均得分越低,则对齐情况越好。
在按堆(Heapwise)比较模式下,文本是整体评估的。在按段(Parsewise)比较模式下,则逐个片段地评估。此选项仅当可以进行此选择时才会出现。
用 ID 比较模式来对齐 键=值 文本。即使两个文件中键的顺序不同或两个文件包含的信息数量不等,这种方式也有效。仅当两个文件都被识别为 键=值 文件时才会出现此选项。
维特比(Viterbi)和前向-后向(Forward-Backward)算法是两种不同的计算方法。选择能提供最佳结果的那一个。
点击
进入下一步。在自动处理后,两个文件的对齐情况通常需要手工修正。
翻译单元位于最后两列的单元格中。
要将两个片段对齐到同一行上:
选择第一个片段。
按空格键(
→ 的快捷键)。点击另一列中与第一个片段相对应的翻译。
进行若干次此类操作后,选择
→ 来更新其他片段的对齐。要分别修改一个或多个片段的位置,请选择片段后按下
U
(上移)或
D
(下移)。
创建翻译记忆库时,只会包含勾选了第一列中的保留框的那些行。
两列充分对齐后,点击
来创建生成的翻译记忆库。此窗口可通过选择
→ 来进入脚本窗口让您可以将现有脚本加载到文本区中并针对当前打开的项目运行它。要自定义脚本功能,请执行以下操作:
在左侧面板的列表中点击脚本名称将其加载到编辑器中。
右键单击底部面板中的<1>到<12>按钮之一并选择添加脚本。
当左键点击此数字时,将运行所选脚本。也可以用主菜单中 Ctrl+Alt+F# (# 为 1 到 12)来启动所选的宏。
菜单下的条目或按默认状态下,脚本存储在位于 OmegaT 安装文件夹(包含 OmegaT.jar
文件的文件夹)中的 scripts
文件夹下。
如果在此处添加了新脚本,它们将出现在脚本窗口的可用脚本列表中。
这里可以找到一些其他脚本:OmegaT 脚本
已实现以下脚本语言:
Groovy (http://groovy.codehaus.org):用于 Java 虚拟机的一种动态语言。它基于 Java 的优势,但又具有受 Python、Ruby 和 Smalltalk 等语言所启发的其他强大功能。
JavaScript (有时缩写为 JS,不要与 Java 相混淆):一种基于原型的脚本语言,它是动态、弱类型的并且具有头等函数。它是多范式语言,支持面向对象、命令式和函数式编程风格。作为诸如 Firefox 等流行软件背后的语言,它是开源领域中参见且首选的编程工具。
所有语言都能访问 OmegaT 的对象模型,其中项目是顶层对象。例如,以下 Groovy 代码片段将扫描当前项目中所有文件内的所有片段,若已存在翻译则打印出片段的原文和译文:
files = project.projectFiles; for (i in 0 ..< files.size()) { for (j in 0 ..< files[i].entries.size()) { currSegment = files[i].entries[j]; if (project.getTranslationInfo(currSegment)) { source = currSegment.getSrcText(); target = project.getTranslationInfo(currSegment).translation; console.println(source + " >>>> " + target); } } }
此对话框可通过选择
→ 来进入它允许为所有翻译项目设置参数。
将片段验证键设置为 Tab 来代替默认的 Enter。此选项对某些中文、日文或韩文字符输入系统很有用。
程序将在关闭前要求确认。
出于保密原因,您可能不想将所有片段发送给机器翻译引擎。如果你取消此选项的勾选,则仅当你在当前片段中按下 Ctrl + M (OS X 上是 Cmd + M )时才会获取机器翻译。你需要再按一次 Ctrl + M 以插入建议。
勾选此框可使得仅有未翻译的片段会被发送至机器翻译服务。
从列表中选择供应商,如有必要,点击
来输入供应商提供的详细认证信息。此处描述了配置对 Microsoft Translator 和 Google Translate 服务的访问的过程。
如果为每个词条所显示的上下文描述并非必要或者太长,请取消对此选项的勾选。
勾选此选项后,对于由一对或一组单词(表达式)所组成的条目,即使其中的单词在原文文本中是分开出现的,词汇表中也会显示此条目。
如果词汇表中显示了过多误报,请取消对此选项的勾选。
如果希望词汇表中显示有着相同词根的词汇,请选择此选项。
如果同时勾选了此选项与 插入原文文本 选项,当插入原文文本时,所有有着相应词条的词汇都会被自动翻译。
勾选此选项后,词汇表中只会显示一个条目,即使此词汇在词汇表中存在有多种形式(例如,有和没有字母是大写的)。
点击此按钮可访问 TaaS 项目网站并创建用户帐户。
然后,你可以在页面 https://term.tilde.com/account/keys/create?system=omegaT 上创建访问密钥。
勾选此选项后,OmegaT 在不同会话之间不会记住访问密钥。
此按钮让你能够浏览并下载已有的那些针对项目原文语言与译文语言的词库。私有词库显示为粗体。词库将下载为 TBX 词汇表并存放在当前词汇表文件夹中。
如有必要,你可以选择特定领域以限制发送与接受的数据量。
清除此选项可停用自动搜索——例如词典过长的情况。
如果希望词典中显示有着相同词根的词汇,请选择此选项。
将 OmegaT 窗口的组件恢复到默认状态。当你分离、移动或隐藏了一个或多个组件后无法恢复到所需的排列时可以使用此功能。更新 OmegaT 后窗格未按预期显示时也可以使用它。
显示用于修改文本显示字体的对话框。使用老电脑的用户如果觉得改变窗口大小非常慢可以尝试更改字体。请参阅杂记中的字体设置部分
此页面让您可以为用户界面的各个部分选择不同的颜色。
可以用脚本设置预定义主题。随同 OmegaT 有一个叫做 Switch Colour Themes 的脚本提供了一套默认的“深色”主题。
此对话框列出了可用的文件过滤器。当前项目所使用的过滤器以粗体显示。如果你不想用 OmegaT 翻译某种类型的文件,可以通过对其名称旁边的复选框的勾选来关闭相应的过滤器。然后,OmegaT 在加载项目时会忽略相应的文件,并在创建译文文档时不加修改地将它们复制到译文文件夹。如果你想再次使用此过滤器,只需要勾选相应复选框即可。点击 默认 可以将文件过滤器重置为默认设置。要编辑过滤器所针对的文件和编码,请在列表中选中此过滤器然后点击 编辑 。
该对话框允许您启用或禁用以下选项:
删除开头和末尾的标签:取消勾选此选项可以显示所有标签,包括在片段开头和结尾处的标签。警告:在 Microsoft Open XML 格式中(docx、xlsx 等等),如果显示所有标签,不要在第一个标签之前放置任何文本——它是个技术性标签,必须始终是开启段落的标签。
删除非分割项目中开头和末尾的空白字符:默认情况下,OmegaT 会删除开头和末尾的空白字符。在非分割项目中,可以通过取消勾选此项选来保留之。
为所有标签保留空格:如果原文文档包含用于控制布局的不可忽略的重要空格,请勾选此选项。
识别有替代翻译的片段时忽略文件上下文:默认情况下,OmegaT 用原文文件名作为备选译文的识别信息的一部分。如果勾选了此选项,则不使用原文文件名,而只要其他上下文(上一个/下一个片段或依赖于文件格式的某种片段标识)匹配,备选译文会在任意文件中生效。
好些过滤器(文本文件、XHTML 文件、HTML 和 XHTML 文件、OpenDocument 文件和 Microsoft Open XML 文件)有一个或多个特定选项。要修改这些选项,在列表中选定此过滤器并点击 选项 。可用选项包括:
文本文件
在断行、空行处进行段落分割或不分割:
如果激活了语句分割规则,文本会根据此处所选择的选项进行进一步分割。
PO 文件
允许译文文件中存在空译文 :
如果选择了此选项,当 PO 文件中的某个片段(可能是整个段落)未翻译时,其在译文文件中的翻译将为空。技术上说,在 PO 译文文件中的 msgstr
片段(如果已创建)将保留为空。由于这是 PO 文件的标准行为,因此它在默认情况下是选中的。如果关闭了此选项,原文文本将被复制到译文段落。
跳过 PO 头
如果选中此选项,则将跳过 PO 头并保持其不变。
自动替换头中的‘nplurals=INTEGER; plural=EXPRESSION;’
此选项允许 OmegaT 覆盖 PO 文件头中的规范,并使用所选译文语言的默认值。
XHTML 文件
翻译以下属性 :所选属性会作为片段出现在编辑器窗口中。
在此处开始新段落 :对于分割而言,将 <br> HTML 标签视为段落分隔。
忽略匹配以下正则表达式的文本 :跳过所有匹配此正则表达式的文本。在标签验证器中它会显示为红色。在原文文本中相匹配的文本会显示为斜体。
不翻译带有以下属性键值对的 meta 标签的 content 属性(以逗号分隔): 框中的 meta 标签将不进行翻译。
不翻译带有以下属性键值对的标签的内容(以逗号分隔) :如果标签与键值对列表匹配,则其内容会被忽略。
能够根据属性的值来将某些标签标记为不可翻译在某些时候会很有用。例如,<div class="hide"> <span translate="no">
。你可以为标签定义要维持不翻译的键值对。对于上面这个例子,这个字段应当包含:class=hide, translate=no
。
Microsoft Office Open XML 文件
您可以选择要翻译的元素。在翻译中它们将显示为单独的片段。
Word: 不可见说明性文本、批注、脚注、尾注、页脚
Excel: 批注、工作表名称
Power Point :幻灯片批注、幻灯片母版和幻灯片版式
全局: 数据图表、图表、绘图和艺术字
其他选项:
聚合标签 :如果选中,其间没有可翻译文本的多个标签将被聚合成单个标签。
为所有标签保留空格 :如果选中,会保留“空白字符”(即空格和换行符),即使在文档中并未定义此选项也是如此。
HTML 和 XHTML 文件
在 HTML 和 XHTML 文件中新增或重写编码声明 :译文文件通常需要具有与原文文件(无论是显式定义还是隐含)不同的字符集编码。使用此选项,译者可以指定译文文件是否应当包含编码声明。例如,如果文件过滤器指定 UTF8 作为译文文件的编码方案,则勾选本选项将始终确保此信息包含在已译文件中。
翻译以下属性 :所选属性会作为片段出现在编辑器窗口中。
在此处开始新段落 :对于分割而言,将 <br> HTML 标签视为段落分隔。
忽略匹配以下正则表达式的文本 :跳过所有匹配此正则表达式的文本。在标签验证器中它会显示为红色。在原文文本中相匹配的文本会显示为斜体。
不翻译带有以下属性键值对的 meta 标签的 content 属性(以逗号分隔): 框中的 meta 标签将不进行翻译。
不翻译带有以下属性键值对的标签的内容(以逗号分隔) :如果标签与键值对列表匹配,则其内容会被忽略。
能够根据属性的值来将某些标签标记为不可翻译在某些时候会很有用。例如,<div class="hide"> <span translate="no">
。你可以为标签定义要维持不翻译的键值对。对于上面这个例子,这个字段应当包含:class=hide, translate=no
。
在译文文档中压缩空白字符 :在译文文档中,多个连续的空白字符会被转换成单个空白字符。
在译文文档中删除 HTML 注释 :注释部分(<!-- 和 --> 之间的部分)不会被复制到译文文档中。
开放文件格式(ODF)文件
您可以选择要翻译下列哪些项:
索引条目、书签、书签引用、备注、批注、演讲备注、链接(URL)、工作表名称
此对话框让您能够指定要由过滤器处理的原文文件的文件名模式、自定义已译文件的文件名和选择用什么编码来加载原文文件和保存翻译。要修改文件过滤器模式,请直接修改字段名或点击 编辑 。要添加新的文件过滤器模式,点击 添加 。添加模式和编辑特定模式使用相同的对话框。该对话框包含一个专门的译文文件名模式编辑器,您可以使用它来自定义输出文件的名称。
当 OmegaT 在其原文文件夹中遇到文件时,它会尝试根据文件的扩展名选择过滤器。更确切地说,OmegaT 尝试将每个过滤器的原文文件名模式与文件名进行匹配。例如,*.xhtml
模式将会匹配任何扩展名为 .xhtml
的文件。如果找到了合适的过滤器,则将文件分配给它进行处理。例如,默认情况下,XHTML 过滤器用于处理扩展名为 .xhtml 的文件。您可以更改或添加由每个文件过滤器处理的文件的文件名模式。原文文件名模式使用的通配符类似于
搜索
中所用的。“*”字符匹配零个或多个字符。“?”字符只匹配一个字符。所有其他字符代表其自身。例如,如果您希望文本过滤器处理 readme 文件(readme、read.me
和 readme.txt
),那么您应该使用模式 read*
。
仅有少量文件格式指定强制编码。未指定编码的文件格式将使用您为其文件扩展名所设置的编码。例如,默认情况下 .txt
文件会使用操作系统的默认编码加载。你可以更改每个不同的原文文件名模式的原文编码。译文文件也可以用任意编码编码。默认情况下,已译文件的编码与原文文件编码相同。原文与译文的编码字段使用的是包含所有支持的编码的下拉菜单。<自动>则会让 OmegaT 来选择编码。这是它的工作原理:
OmegaT 使用其编码声明(如果存在)来识别原文文件的编码(HTML 文件、基于 XML 的文件)。
OmegaT 被设置为对某些文件格式使用强制编码(Java 属性等)。
OmegaT 使用操作系统的默认编码来处理文本文件。
有时候你可能希望自动重命名所翻译的文件,例如在文件名后添加语言代码。译文文件名模式使用特殊的语法,因此如果要编辑此字段,你必须点击 编辑... 并使用编辑模式对话框。如果要还原为过滤器的默认配置,点击 恢复默认值 。你还可以在文件过滤器对话框的译文文件名模式字段中直接修改名称。编辑模式对话框提供了以下选项:
默认值是 ${filename}
——带有扩展名的原文文件的完整文件名:在这种情况下,已译文件的文件名和原文文件的文件名相同。
${nameOnly}
——允许您只插入原文文件的主文件名,不包括扩展名。
${extension}
——原始文件的扩展名
${targetLocale}
——译文区域设置代码(格式为“xx_YY”)。
${targetLanguage}
——译文语言和国家/地区代码(格式为“XX-YY”)。
${targetLanguageCode}
——译文语言——仅“XX”
${targetCountryCode}
——译文的国家/地区——仅“YY”
${timestamp-????}
——生成时的系统日期时间,有各种格式
有关“SimpleDateFormat”格式的示例,请参阅 Oracle 文档
${system-os-name}
——电脑所使用的操作系统
${system-user-name}
——系统用户名
${system-host-name}
——系统主机名
${file-source-encoding}
——原文文件编码
${file-target-encoding}
——译文文件编码
${targetLocaleLCID}
——Microsoft 目标区域设置
对于变量 ${nameOnly} 和 ${Extension} 还有其他变体可用。如果文件名存在疑义,可以用如下形式的变量名: ${name only
-扩展数字
} 和 ${extension
-
扩展数字}
。例如,如果原始文件名为 Document.xx.docx,以下变量相应的结果如下:
${nameOnly-0}
Document
${nameOnly-1}
Document.xx
${nameOnly-2}
Document.xx.docx
${extension-0}
docx
${extension-1}
xx.docx
${extension-2}
Document.xx.docx
翻译记忆工具使用称为片段的文本单元。OmegaT 有两种方式来分割文本:按段落或按语句分割(亦称为“基于规则的分割”)。要选择分割的类型,请从主菜单中选择 → ,然后勾选或取消勾选所提供的复选框。段落分割在某些情况下是有利的,例如在高度创造性或讲究文体的翻译中,译者可能想要整个改变语句的顺序;然而,对于大多数项目而言,语句分割是首选的选择,因为它能更好地与之前的翻译相匹配。如果选用了语句分割,你可以通过从主菜单中选择 → 来设置规则。
许多语言都已经有了可靠的分割规则,因此您很可能并不需要参与编写自己的分割规则。另一方面,此功能在特殊情况下会非常有用,可以针对要翻译的文本调整分割规则来提高工作效率。
警告: 由于在更改过滤器选项后文本将以不同的方式进行分割,因此您可能需要从头开始翻译。同时,项目的翻译记忆库中之前的那些有效片段会变为孤立片段。如果在项目开启状态下更改分割规则,则必须重新加载项目才能使更改生效。
OmegaT 使用以下步骤:
OmegaT 首先解析文本以进行结构级分割。在此过程中,只使用原文文件的结构来生成片段。
例如,文本文件可能会在断行、空行处分割,或者完全不分割。包含格式的文件(ODF 文档、HTML 文档等)则在块级(段落)标签上分割。在 XHTML 或 HTML 文件中的可翻译对象属性可以提取为单独的片段。
在将源文件分割为结构单元之后,OmegaT 将进一步把这些块分割为语句。
分割过程可描绘如下:光标沿着文本移动,每次一个字符。在每个光标位置处,由 前 与 后 模式组成的规则将按给定顺序应用,检查是否有任何 前 模式对于光标左侧的文本有效同时相应的 后 模式也对光标右侧的文本有效。如果规则匹配,则光标会移动而不插入片段分割符(对于例外规则)或者在当前光标位置创建新的片段分割符(对于断句规则)。
这两种规则的行为如下:
将原文文本分割为片段。例如,“ Did it make sense? I was not sure .”应当分割为两个片段。要做到这一点,应该有一个断句规则,针对“?”,同时后面要跟着空格和一个首字母大写的单词。要将一条规则定义为断句规则,请勾选断句/例外复选框。
指定不应分开的文本部件。尽管其中有个句点,但 “Mrs. Dalloway” 不应当分割为两个片段,因此应当为后面跟着句点的 Mrs(以及 Mr、Dr、prof 等)制定一条例外规则。要将一条规则定义为例外规则,请取消对断句/离外复选框的勾选。
对于绝大多数欧洲语言和日语来说,预定义的断句规则应当足够了。从灵活性的角度看,您可以考虑为原文语言定义更多例外规则以获取语意更完整也更连贯的片段。
为匹配的语言模式所定义的所有片段分割规则集都是活动的,并按照规给定的优先级顺序应用,因此为特定语言定义的规则优先级应当高于默认的那些。例如,加拿大法语(FR-CA)的规则优先级应当设置为高于法语(FR.*)的规则,并高于默认(.*)的规则。因此,在翻译加拿大法语时,会首先应用加拿大法语规则(如果存在的话),接着是法语规则,最后为缺省规则。
通常应避免对分割规则进行重大更改,尤其在完成初稿后,但进行细微修正,例如添加公认的缩写,可能会有好处。
要编辑或扩展现有的规则集,只要在顶部的表格中点击它即可。该规则集内的规则将显示在窗口的下半部分。
若要为新的语言模式创建空的规则集,点击对话框上半部分的 添加 。上方表格的底部会出现一个空行(你可能需要向下滚动才能看到它)。将规则集的名称和语言模式更改为相关语言及其代码。语言模式的语法遵循正则表达式的语法规则。如果你的规则集处理的是语言-国家对,我们建议您使用 上移 按钮将其移到顶部。
添加 前模式 与 后模式 。要检查其语法和适用性,建议使用能直接查看其效果的工具。参见正则表达式。现有的规则永远是个良好的起点。
目的 | 前模式 | 后模式 | 备注 |
---|---|---|---|
在后面跟着空格、Tab 等的句点(“.”)之后开始新片段。 | \. | \s | “\.”代表句点字符。“\s”意味着任意空白字符(空格、Tab、分页符等) |
在 Mr. 后不要进行分割 | Mr\. | \s | 这是一条例外规则,因此此规则的复选框必须取消勾选。 |
在“。”(日文句号)后进行分割 | 。 | 注意后模式 是空的 |
|
在 M.、Mr.、Mrs.、和 Ms. 之后不要进行分割 | Mr??s??\. | \s | 例外规则——参见正则表达式中 ? 的用法 |
点击
来配置自动完成器词汇表视图。点击
来配置自动文本选项以及添加或移除条目。点击
来设置字符表自动完成器选项。在译文片段中可通过快捷键 Ctrl+空格 来启动自动完成器。
如果勾选了 自动显示相关建议 选项,自动完成器会在输入已翻译术语表中条目的首字母或输入标签的“<”后自动启动。
OmegaT 有一个内置的拼写检查器,它基于 Apache OpenOffice、LibreOffice、Firefox 和 Thunderbird 中使用的拼写检查器。因此,它可以使用大量可用于这些程序的免费拼写词典。
选择语言检查器的位置。
使用本地电脑上与 OmegaT 提供的语言检查器之外的语言检查器让你能够个性化验证规则。
是否要勾选这些规则取决于它们与您要翻译的文本的类型是否相关。
默认情况下,OmegaT 不会执行项目专有设置(omegat
文件夹中的 finder.xml
文件)中所指定的命令,因为它们可能会对机器的安全性产生重大影响。
仅当你明白自己正在做什么且仅针对来自可信来源的项目时才激活此选项。
使您可以更改上下文菜单(右键单击菜单)中的命令的顺序。100 左右的值会让命令显示在顶部,而 900 左右的值会它们显示在底部。
你需要重新启动 OmegaT 才能使此更改生效。
你可以将原文文本自动插入编辑区。这对于包含许多商标或其他必须保持不变的专有名词的文本很有用。
OmegaT 将把编辑字段留空。该选项允许您直接输入翻译而无需删除原文文本,因此省掉了两次按键( Ctrl+A 和 Del )。现在还允许译文为空。它们在编辑器中显示为<空>。要创建空译文,在片段中点击右键并选择“ 设置为空译文 ”。在同一个弹出菜单中的 移除译文 还可以用来删除当前片段的现有译文。通过清除译文片段并按下 可以实现相同的效果。
OmegaT 将插入与当前原文最相似的字符串的译文,前提是相似度高于在此对话框中设置的阈值。可以使用前缀(默认为空)来标记通过模糊匹配插入的译文。如果添加了前缀(例如[模糊]),您可以稍后跟踪这些翻译检查它们是否正确。
对话框窗口下半部分的复选框用于以下目的:
如果勾选了此选项,当手动或自动插入模糊匹配时,OmegaT 会尝试根据原文内容转换模糊匹配中的数字。这里有若干限制:
原文片段和模糊匹配中包含的数字清单必须相同
数字在匹配的原文和译文中必须完全相同。
只考虑整数和简单的浮点数(使用句点作为小数点,如 5.4,不考虑 5,4 或 54E-01)。
要翻译的文档也许包括了一些在译文文档中也要保持原封不动的商标、姓名或其他专有名词。对于只包含此类不可变文本的片段可以采取两种策略。
您可以决定完全不翻译这类片段。OmegaT 会将这些片段报告为未译。这是默认的情况。另一种方法是输入与原文相同的译文。OmegaT 可以识别出您已经翻译过了。要允许这一点,请勾选此选项。
文本导出功能会从当前 OmegaT 项目导出数据到纯文本文件。当打开片段时其数据会被导出。文件会出现在 OmegaT 用户文件文件夹中的 /script 子文件夹中,包括有:
当前片段的原文内容(source.txt
)。
当前片段的译文内容(target.txt
)。
用户按下
Ctrl+Shift+C
或选择了 的时候被高亮选定的文本(selection.txt
)。
文件的内容在打开新片段(source.txt 和 target.txt)或导出新的所选部分(selection.txt)时会被覆盖。这些文件是无格式的纯文本文件。整个过程可以通过基于 Tck/Tcl 的脚本来操纵控制。关于细节、示例和建议,请参阅使用 OmegaT 的文本导出功能。
如果我们想要避免在具有多个可能译文内容的片段上出现错译,选中此复选框会让 转到下一个未译片段 在下一个此类片段处停下,无论其是否已被翻译。
取消勾选此选项可防止在编辑期间损坏标签(即,部分删除)。在这种情况下,依然可以通过使用 Ctrl + Backspace / Delete 或完整选择(Ctrl + Shift +左/右)标签然后删除它(Delete 或 Ctrl + X)来整个删除标签。
勾选此选项后,在每次离开片段时,会提醒原文和译文片段之间的标签差异。
勾选此选项可在 project_save.tmx
文件中记录片段已被自动填充的信息,这样在编辑器中就可以用特定的颜色显示出来(如果在视图菜单中已勾选“标记自动填充片段”选项)
默认情况下,编辑器一开始会显示 2,000 个片段,并在上下滚动时渐进式地加载更多片段。如果您的机器很强力,并且/或者如果您不喜欢渐进式加载过程中滚动条的行为,可以提高此数字。
当翻译软件相关的文件时,如果文件过滤器并不是开箱即用状态,则可以配置标签检验器选项来检查编程变量(%...)或占位符({0})。PO 过滤器已经可以处理 %..,而 Java™ 资源包过滤器已经能处理 {#} 标签,因此你只需要对其他文件类型进行此操作。
你还可以定义和标签验证相关的各种选项,并可以定义自定义标签。
例如,如果你在表示自定义标签的正则表达式字段中输入了
\d+
,所有数字都会被视为标签,让你可以检查确认数字在翻译过程中未被错误地更改。
类似地,输入
<.*?>
可以确保原文文本中的 HTML 标记(例)在翻译过程中维持原封不动。
注:可以通过写入
(<.*?>)|(\d+)
来组合这两个指令。
在这里输入您的名字,它将附加到您翻译的所有片段中。
列出了所有在 OmegaT 中存储了登录详细信息的项目。如果您希望 OmegaT 在每次访问此项目时要求输入登录名和密码,请从此列表中删除该项目。
默认情况下,显示在模糊匹配窗格中的最接近匹配是用词干分析来确定的。
要得到字面匹配更接近于 100% 的结果,选择全文,包括标签和数字选项。
决定如何处理外来 TMX 文件(即并非由 OmegaT 所生成的)中的标签。
通过使用预配置变量来更改模糊匹配的显示方式:
${id}
|
匹配的序号,从 1 到 5 的 |
${sourceText}
|
匹配的原文文本 |
${targetText}
|
匹配的译文文本 |
${diff}
|
显示原文和匹配之间差异的字符串。 提示: 如果你正在翻译的文本已更新,请使用它。 |
${diffReversed}
|
与 ${diff} 相同,但差异(要插入和删除的内容)是反向的。 |
${score}
|
使用词干分析,不考虑标签和数字选项计算得到的百分比。 |
${noStemScore}
|
使用不考虑标签和数字选项计算得到的百分比。 |
${adjustedScore}
|
使用全文,包括标签和数字选项计算得到的百分比。 |
${fuzzyFlag}
|
表示该匹配为模糊匹配(目前仅适用于来自带 #fuzzy 标记的 PO 文件的翻译) |
包含以不同方式显示文本和修订信息的选项。
勾选此选项可以用灰度显示所有非独特片段(重复)。取消勾选此选项后,除了首次出现外的所有非独特片段都会以灰度显示。
允许用户选择自动保存项目的间隔——以分钟和秒为单位。
根据项目的特征更改默认间隔(3 分钟):
对于内部服务器上的同步项目使用较短的间隔(最小值:10 秒)。
对于托管在外部服务器上的团队项目使用较长的间隔。
指定在
命令之后需要执行的命令。使用此功能的示例之一是自动将译文文档发送到客户的 FTP 服务器上。
默认情况下,OmegaT 不会执行项目专有设置(omegat.project
文件)中所指定的命令,因为它们可能会对机器的安全性产生重大影响。
仅当你明白自己正在做什么且仅针对来自可信来源的项目时才激活此选项。
如果 OmegaT 需要使用要身份验证的代理服务器来访问因特网,请在此处输入代理服务器管理员所提供的详细信息。
您可以在此处重新定义用于保护登录详细信息和机器翻译服务访问密钥的主密码。在创建新密码之前,请务必记下所有这些详细信息,因为它们都将被删除,需要重新输入。
可以访问可用插件列表。插件安装在 OmegaT 安装文件夹或平台特定的 OmegaT 用户首选项文件夹下的 /plugins
文件夹中。
启用 OmegaT 更新的自动通知。