Segmentación del texto fuente
Anterior		Siguiente

Segmentación del texto fuente

La herramienta de memoria de traducción trabaja con unidades textuales denominadas segmentos. OmegaT tiene dos maneras de segmentar un texto: en párrafos o segmentación de frases (también conocida como "segmentación basada en reglas"). Con el fin de seleccionar el tipo de segmentación, selecciona Proyecto → Propiedades... desde el menú principal y marca o desmarca la casilla de verificación prevista. La segmentación de párrafo es ventajosa en algunos casos, tal como en traducciones altamente creativas o de estilo en el que el traductor puede desear cambiar el orden de frases enteras, para la mayoría de los proyectos, sin embargo, la segmentación de frases es una opción preferible, ya que ofrece una mejor coincidencia con traducciones anteriores. Si elegiste la segmentación por frases, puedes configurar las reglas seleccionando Opciones → Segmentación... desde el menú principal.

Las reglas de segmentación fiables ya están disponibles en muchos idiomas, por lo que probablemente no tendrás que involucrarte en la escritura de tus propias reglas de segmentación. Por otro lado esta funcionalidad puede ser muy útil en casos especiales, donde puedes aumentar tu productividad afinando las reglas de segmentación del texto a traducir.

Precaución: Debido a que el segmentado del texto es diferente después de cambiar las opciones de filtro, posiblemente tengas que empezar a traducir desde cero. Al mismo tiempo, los segmentos válidos anteriormente en la memoria de traducción del proyecto se volverán segmentos huérfanos. Si cambias las opciones de segmentación, cuando un proyecto está abierto, debes volver a cargar el proyecto a fin de que los cambios surtan efecto.

OmegaT utiliza la siguiente secuencia de pasos:

Estructura del nivel de segmentación

OmegaT primero analiza el texto para estructurar la segmentación de nivel superior. Durante este proceso, sólo estructura el archivo fuente que se utiliza para producir segmentos.

Por ejemplo, los archivos de texto se pueden segmentar en los saltos de línea, líneas en blanco, o no segmentarse en absoluto. Los archivos que contienen formato (documentos de OpenOffice.org, documentos HTML, etc.) se segmentan a nivel de etiquetas de bloque (párrafo). Atributos de objeto traducibles en XHTML o HTML se pueden extraer como segmentos separados.

Segmentación a nivel de frase

Después de segmentar el archivo fuente en unidades estructurales, OmegaT segmentará más los bloques en frases.

Reglas de segmentación

El proceso de segmentación se puede describir de la siguiente manera: el cursor se mueve a lo largo del texto, un carácter a la vez. En cada posición del cursor las reglas, que consisten en un patrón Antes y Después , se aplican en el orden dado para ver si alguno de los patrones Antes es válido para el texto a la izquierda y el patrón correspondiente Después para el texto a la derecha del cursor. Si las reglas coinciden, ya sea que el cursor se mueva sin insertar un salto de segmento (por una regla de excepción) o se cree un nuevo segmento en la posición actual del cursor (para romper la regla).

Los dos tipos de reglas se comportan de la siguiente manera:

Regla de ruptura: Separa el texto fuente en segmentos. Por ejemplo, " Did it make sense? I was not sure ." debería dividirse en dos segmentos. Para que esto ocurra, debe haber una regla para romper "?", cuando está seguida por espacios y una palabra que comienza con mayúscula. Para definir una regla como una regla de ruptura, marca la casilla de verificación Ruptura/Excepción.

Regla de excepción: especificar qué partes del texto no se deben separar. A pesar del punto, "Mrs. Dalloway" no se debe dividir en dos segmentos, por tanto debes establecer una regla de excepción para "Mrs" (y para "Mr", "Dr", "prof", etc.), seguida de un punto. Para definir una regla como una regla de excepción, desmarca la casilla de verificación Ruptura/Excepción.

Las reglas de ruptura predefinidas deberían ser suficientes para la mayoría de los idiomas Europeos y Japoneses. En vista de tal flexibilidad, podrías considerar definir más reglas de excepción para tu idioma fuente a fin de proporcionar segmentos más significativos y coherentes.

Prioridad de regla

Todas las reglas de segmentación se establecen a un patrón de idioma correspondiente se activan y se aplican en el orden de prioridad, por lo que las reglas para el lenguaje específico deben ser superiores a los valores predeterminados. Por ejemplo, las reglas para el Francés canadiense (FR-CA) deben ser mayores que las reglas para el Francés (FR.*), y superiores a la (.*) predeterminada. Por lo tanto, al traducir del Francés canadiense las reglas del Francés de Canadá - su las hay - se aplicarán en primer lugar, seguidas por las reglas para el Francés y, por último, las reglas predeterminadas.

Creando una nueva regla

Generalmente, debes evitar hacer cambios importantes en las reglas de segmentación, en especial después de finalizar el primer borrador, pero algún cambio de menor importancia, tal como la adición de una abreviatura reconocida, puede ser ventajoso.

A fin de modificar o ampliar un conjunto de reglas, simplemente haz clic sobre ella en la tabla. Las reglas para ese conjunto aparecerán en la mitad inferior de la ventana.

Con el fin de crear un conjunto de reglas vacío para un nuevo patrón, haz clic en idioma Añadir en la mitad superior del cuadro de diálogo. Aparecerá una línea en blanco en la parte inferior de la tabla superior (posiblemente tengas que desplazarte hacia abajo para verla). Cambia el nombre del conjunto de reglas y el patrón y código del idioma en cuestión (consulta Apéndice B, Idiomas ― Lista de códigos ISO 639 para ver una lista de códigos de idioma). La sintaxis del patrón de idioma se ajusta a la sintaxis de expresión regular. Si el conjunto de reglas maneja un par de idioma - país, te aconsejamos que te muevas a la parte superior con el botón Subir .

Agrega los patrones Antes y Despuésde . Para comprobar tu sintaxis y su aplicación, te recomendamos usar herramientas que le permiten ver su efecto directamente. Consulta el capítulo sobre lsa Expresiones regulares. Un buen punto de partida siempre serán las reglas existentes.

Algunos ejemplos sencillos

Intención	Antes	Después	Nota
Establece un segmento después de un período ('.') y antes de un espacio	\.	\s	"\." significa el carácter "." "\s" significa cualquier espacio en blanco (espacio, tabulador, nueva página, etc.)
No segmenta después de "Mr."	Mr\.	\s	Esta es una regla de excepción, por lo tanto la casilla de verificación de la regla no debe estar marcada
Establece un segmento después de "." (Punto Japonés)	。		Ten en cuenta que `después` está vacío
No segmenta después de "Sr." "M." "Mrs." y "Ms."	Mr??s??\.	\s	Regla de excepción - consulta el uso de ? en expresiones regulares