As ferramentas de memoria de tradución funcionan con unidades textuais chamadas segmentos. OmegaT ten dúas formas de segmentar un texto: por parágrafo ou por frase (tamén chamada «segmentación baseada en regras»). Para seleccionar o tipo de segmentación, seleccione → desde o menú principal e marque ou desmarque a caixa dispoñíbel para tal efecto. A segmentación por parágrafos é mellor en certos casos, como en traducións moi creativas ou estilísticas nas que o tradutor pode querer cambiar a orde de frases enteiras; na maioría dos proxectos, porén, é preferíbel a segmentación por frase, xa que consegue mellores coincidencias de traducións anteriores. Se se seleccionou a segmentación por frase, pode editar as regras seleccionando → desde o menú principal.
Xa hai regras de segmentación dispoñíbeis para moitas linguas, así que é pouco probábel que necesite escribir as súas propias regras de segmentación Pola outra banda, esta funcionalidade pode ser moi útil en casos especiais nos que queira incrementar a súa produtividade adaptando as regras de segmentación ao texto que ten que traducir.
Atención: debido a que o texto se segmentará de modo diferente despois de que se cambien as opcións de filtros, deberá comezar a traducir desde o principio. Ao mesmo tempo, os segmentos válidos previos na memoria de tradución pasarán a ser segmentos orfos. Se cambia as opcións de segmentación cando está aberto un proxecto, terá que recargalo para que os cambios sexan efectivos.
OmegaT usa a seguinte secuencia de pasos:
OmegaT primeiro analiza o texto para estruturar o nivel de segmentación. Durante este proceso, só estrutura o ficheiro de orixe que se utiliza para producir segmentos.
Por exemplo, os ficheiros de texto se segmentarán polas quebras de liña, liñas baleiras ou non se segmentarán. Os ficheiros que conteñan formatado (documentos ODF, HTML, etc.) se segmentan polas etiquetas a nivel de bloque (parágrafo). Os atributos de obxecto traducíbeis en ficheiros XHTML ou HTML se poden extraer coma segmentos separados.
Despois de segmentar o ficheiro de orixe en unidades estruturais, OmegaT segmentara estes bloques aínda máis en frases.
O proceso de segmentación pode describirse do seguinte modo: o cursor se move polo texto, carácter por carácter. En cada regra de posición do cursor, consistente dun padrón de Antes e Despois , se aplican na orde dada para ver se algún dos padróns Antes son válidos para o texto da esquerda e o padrón Despois correspondente para o texto á dereita do cursor. Se a regra coincide, ou ben o cursor se move sen inserir unha quebra de segmento (por unha regra de excepción) ou ben se crea unha nova quebra de segmento na posición do cursor (pola regra de quebra).
Os dous tipos de regras se comportan do seguinte xeito:
Divide o texto de orixe en segmentos. Por exemplo, « Tiña sentido? Non estaba seguro .» debería dividirse en dous segmentos. Para que isto suceda, debería haber unha regra de quebra para o carácter «?» cando lle sigan algún espazo e unha palabra en maiúscula. Para definir unha regra como una regra de quebra, marque a caixa de verificación de Quebra/Excepción.
especifica que partes do texto NON deben ser divididas. A pesar do punto, «Sr. Dalloway» non debería dividirse en dous segmentos, polo que debería estabelecerse unha regra de excepción para Sr (e para Srª, Dr, Prof, etc.), seguidos dun punto Para definir unha regra como unha regra de excepción, deixe a caixa de verificación Quebra/Excepción sen marcar.
As regras de quebra predeterminadas deberían ser suficientes para a maioría dos idiomas europeos e xaponés. Debido á flexibilidade, pode que queira definir máis regras de excepción para o seu idioma de orixe para conseguir segmentos máis coherentes e con máis sentido.
Todo conxunto de regras de segmentación para un padrón de coincidencia de linguas están activos e se aplicarán na orde de prioridade dada, polo que as regras para linguas específicas deberían estar por riba das regras predeterminadas. Por exemplo, as regras para o francés canadense (FR-CA) deberían estar por riba das regras para o francés (FR.*), e por riba das predeterminadas (.*). Polo tanto, cando traduza do francés canadense as regras para ese idioma (se as hai) se aplicarán primeiro, seguidas polas regras para o francés e, por último, as regras predeterminadas.
Debería evitarse producir grandes cambios nas regras de segmentacións, especialmente despois de acabar o primeiro borrador, mais os pequenos cambios, tales como a adición de abreviacións recoñecidas, pode ser bo.
A fin de modificar ou ampliar un conxunto de regras existente, simplemente faga clic sobre la regra en la táboa superior. As regras para ese conxunto aparecerán na metade inferior da xanela.
Para crear un conxunto de regras baleiro para un novo padrón de lingua, faga clic en Engadir na metade superior do diálogo. Aparecerá unha liña baleira no final da táboa superior (pode que teña que desprazarse cara abaixo para poder vela). Cambie o nome do conxunto de regras e o padrón de idioma ao idioma relacionado e o seu código (vexa Appendix A, Idiomas - lista do código ISO 639 para unha lista dos códigos de linguas). A sintaxe do padrón de linguas se adapta á sintaxe das expresións regulares. Se o seu conxunto de regras é para un par de lingua-país, advertímoslle de que deberá movelo á parte superior co botón Desprazar cara arriba .
Engada os padróns Antes e Despois . Para comprobar a súa sintaxe e aplicabilidade, é aconsellábel empregar ferramentas que permitan ver os seus efectos directamente. Vexa o capítulo Expresións regulares. Un bo punto de partida sempre serán as regras existentes.
Intención | Antes | Despois | Nota |
---|---|---|---|
Configurar o inicio do segmento despois dun punto ('.') seguido por un espazo, tabulación, etc. | \. | \s | «\.» é o carácter de punto. «\s» fai referencia a calquera espazo en branco (espazo, tabulación, nova páxina, etc.) |
Non segmentar despois de Sr. | Sr\. | \s | Esta é unha regra de excepción, así que non deberá marcar a caixa de verificación da regra |
Estabelecer un segmento despois de «。» (punto xaponés) | 。 | Teña en conta que a sección despois está baleira |
|
Non segmentar despois de Sr., Sra. Srs. e Sras. | Sr??s??\. | \s | Regra de excepción - vexa o uso de ? en expresións regulares |