OmegaT 3.1 - Manual do Usuário

Segmentação do texto fonte

Ferramentas de memória de tradução trabalham com unidades de texto chamadas segmentos. O OmegaT tem duas maneiras de segmentar um texto: por parágrafo ou por segmentação de sentença (também referenciada como "segmentação baseada em regras"). Para selecionar o tipo de segmentação, clique em ProjetoPropriedades... no menu principal e marque ou desmarque a caixa de seleção existente. A segmentação por parágrafo é mais vantajosa em certos casos, tais como traduções estilizadas ou altamente criativas, nas quais o tradutor pode querer alterar a ordem de frase inteiras; porém, para a maioria dos projetos, a segmentação por sentença é a escolha preferida, já que retorna melhores correspondências da traduções anteriores. Se escolher segmentação por sentença, você pode definir as regras; basta clicar em OpçõesSegmentação... no menu principal.

Regras de segmentação dependentes já estão disponíveis para muitos idiomas, então é provável que você não irá precisar se envolver criando suas próprias regras de segmentação. Por outro lado, esta funcionalidade pode ser muito útil em casos especiais, em que você pode aumentar sua produtividade ao ajustar as regras de segmentação ao texto que será traduzido.

Atenção: uma vez que o texto vai se segmentar diferentemente após mudanças terem sido feitas nas opções de filtro, você talvez tenha que recomeçar a traduzir do princípio. Ao mesmo tempo, segmentos válidos anteriores na memória de tradução do projeto se tornarão segmentos orfãos. Se você modificar opções de segmentação quando um projeto estiver aberto, você deverá recarregar o projeto para aplicar as modificações.

OmegaT usa a seguinte sequência de passos:

Segmentação baseada na estrutura do texto

OmegaT analisa primeiro o texto pela segmentação usando o nível de estrutura. Durante este processo somente a estrutura do arquivo fonte é usada para produzir segmentos.

Por exemplo, os arquivos de texto podem ser segmentados nas quebras de linha, nas linhas vazias ou não serem segmentados. Arquivos com formatação (documentos ODF, documentos HTML, etc.) são segmentados nas tags de nível de bloco (ou seja, parágrafos). Os atributos de objeto traduzíveis em arquivos XHTML ou HTML podem ser extraídos como segmentos separados.

Segmentação por sentenças

Após segmentar o arquivo fonte em unidades estruturais, o OmegaT segmentará esses blocos em sentenças.

Regras de Segmentação

O processo de segmentação pode ser ilustrato da seguinte forma: o cursor passa pelo texto, um caractere de cada vez. Regras de posição do cursor, que consistem em um padrão Antes e Depois , são aplicadas em sua dada ordem para verificar se quaisquer dos padrões Antes são válidos para o texto à esquerda e o padrão Depois correspondente para o texto à direita do cursor. Se a regra corresponder, o cursor se move sem inserir uma quebra de segmento (para uma regra de exceção) ou uma nova quebra de segmento será criada na posição atual do cursor.

Os dois tipos de regras comportam-se da seguinte forma:

Regra de quebra

Separa o texto fonte em segmentos. Por exemplo, " Isto fez sentido? Eu não tinha certeza ."deve ser dividido em dois segmentos. Para que isso aconteça, deve haver uma quebra de regra para "?", quando seguido de espaços e uma palavra maiúscula. Para definir uma regra como quebra de regra, marque a caixa de seleção Quebra/Exceção.

Regra de exceção

especifica que partes do texto NÃO devem ser separadas. Apesar do ponto de abreviatura, "Sra. Dalloway " não deve ser separada em dois segmentos, portanto uma regra de exceção deve ser criada para Sra. (bem como para Sr. e Srta. e Dr. e prof. e etc.), seguida de um ponto. Para definir uma regra como regra de exceção, deixe a caixa de seleção Quebra/Exceção desmarcada.

As regras de quebra predefinidas devem ser suficientes para a maioria das línguas europeias e para o japonês. Dada a flexibilidade desse recurso, você pode definir mais regras de exceção para a língua fonte, para com isso obter segmentos mais significativos e coerentes.

Prioridade de regra

Todos os conjuntos de regras de segmentação para um padrão de língua correspondente são ativos e aplicados na ordem de prioridade estabelecida, portanto as regras para uma língua específica devem ter maior prioridade do que aquelas predefinidas. Por exemplo, as regras para francês canadense (FR-CA) devem ter prioridade às regras para o francês (FR.*), bem como àquelas definidas como padrão (.*). Dessa maneira, na tradução do francês canadense as regras para o francês canadense serão aplicadas primeiro, se houverem, seguidas pelas regras do francês e por fim, seguidas pelas regras padrão.

Criação de uma nova regra

Grandes alterações para as regras de segmentação geralmente devem ser evitadas, sobretudo após a conclusão do primeiro esboço, mas pequenas alterações, tais como, acréscimo de uma abreviatura reconhecida, podem ser perigosas.

Para editar ou expandir um conjunto de regras existentes, basta clicar nas regras na tabela superior. As regras para esse conjunto serão mostradas na metade inferior da janela

Para criar um conjunto vazio de regras para uma nova língua, clique em Adicionar na metade superior da caixa de diálogo. Na parte de baixo da tabela será acrescentada uma linha (faça a rolagem na tela para ver a nova linha). Mude o nome do conjunto de regras e o padrão da língua para a língua em questão e seu código (veja Appendix A, Línguas - lista de códigos ISO 639 para uma lista de códigos de línguas). A sintaxe do padrão da língua segue a sintaxe das expressões regulares. Se o seu conjunto de regras processa um par de línguas, recomendamos que o coloque no topo da lista usando o botão Mover para cima .

Adicione os padrões Antes e Depois . Para verificar suas sintaxes e suas aplicabilidades, é recomendado usar ferramentas que permitirão que você veja diretamente seus efeitos. Veja o capítulo sobre Expressões regulares. As regras existentes sempre serão um bom ponto de partida.

Alguns exemplos simples

Intenção Antes Depois Observação:
Defina o início do segmento depois do ponto ('.') seguido por espaço, tabulação... \. \s "\." representa o caractere do período. "\s" significa qualquer caractere de espaço em branco (espaço, tabulação, nova página, etc.)
Não segmentar após Sr. Mr\. \s Esta é uma regra de exceção, portanto a caixa de seleção da regra não deve ser marcada
Definir um segmento após "。" (ponto japonês)   Note que após está vazio
Não segmentar após Sr. Sra e Srta. Sr??s??\. \s Regra de exceção - ver o uso de ? em expressões regulares