El sistema general de traducción automática basado en corpus es la traducción automática basada en estadísticas. Debido al repentino aumento en este campo, las estadísticas son corpus estadísticos paralelos, de los cuales se derivan muchos modelos estadísticos diferentes.
A diferencia del sistema de traducción automática basado en reglas, que consta de un diccionario y una base de reglas gramaticales, el sistema de traducción automática basado en corpus se centra en la aplicación de corpus y consta de corpus divididos y anotados. biblioteca. Los métodos basados en corpus se pueden dividir en métodos basados en estadísticas y métodos basados en ejemplos. Traducción automática basada en estadísticas El método de traducción automática basada en estadísticas considera la traducción automática como un proceso de transmisión de información y utiliza un modelo de canal para explicar la traducción automática. Esta idea cree que la traducción de oraciones del idioma de origen a oraciones del idioma de destino es un problema de probabilidad. Cualquier oración del idioma de destino puede ser la traducción de cualquier oración del idioma de origen, pero las probabilidades son diferentes. La tarea de la traducción automática es encontrar la oración con. la probabilidad más alta. El método específico es considerar la traducción como el proceso de decodificación de convertir el texto original en el texto de destino a través del modelo. Por lo tanto, la traducción automática estadística se puede dividir en los siguientes problemas: problemas de modelo, problemas de entrenamiento y problemas de decodificación. El llamado problema del modelo consiste en establecer un modelo de probabilidad para la traducción automática, es decir, definir un método de cálculo para la probabilidad de traducción de una oración en el idioma de origen a una oración en el idioma de destino. El problema de entrenamiento consiste en utilizar el corpus para obtener todos los parámetros del modelo. El llamado problema de decodificación consiste en encontrar la traducción con la mayor probabilidad para cualquier oración del idioma fuente de entrada según el modelo y los parámetros conocidos.
En realidad, la idea de utilizar métodos estadísticos para resolver problemas de traducción automática no es una idea nueva en la década de 1990. W. Weaver ya había propuesto el uso de este método en el memorando de traducción automática de 1949. simplemente porque N. Chomsky y otros criticaron el método, y este método fue rápidamente abandonado. El principal motivo de crítica es que el lenguaje es infinito y las descripciones estadísticas basadas en el empirismo no pueden cumplir con los requisitos reales del lenguaje.
Además, limitado por la velocidad de la computadora en ese momento, el valor de las estadísticas estaba fuera de discusión. Las computadoras han mejorado enormemente en términos de velocidad y capacidad. El trabajo que en el pasado sólo podía realizarse con computadoras grandes ahora puede realizarse con estaciones de trabajo pequeñas o computadoras personales. Además, la aplicación exitosa de métodos estadísticos en reconocimiento de voz, reconocimiento de texto, lexicografía y otros campos también muestra que este método sigue siendo muy eficaz en el campo del procesamiento automático del lenguaje.
El modelo matemático del método de traducción automática estadística fue propuesto por investigadores de International Business Machines Corporation (IBM). En el famoso artículo "La teoría matemática de la traducción automática", se propusieron cinco modelos estadísticos palabra por palabra, denominados IBM Model 1 a IBM Model 5. Estos cinco modelos se derivan del modelo de canal de origen y utilizan el método de máxima verosimilitud para estimar los parámetros. Debido a las limitaciones de las condiciones informáticas en ese momento (1993), no se pudo lograr una capacitación basada en datos a gran escala. Más tarde, también recibió atención el modelo estadístico basado en el modelo oculto de Markov propuesto por Stephan Vogel, y este modelo se utilizó para reemplazar el Modelo 2 de IBM. En la investigación de este momento, el modelo estadístico solo consideró la relación lineal entre palabras y no consideró la estructura de la oración. Es posible que esto no funcione bien cuando el orden de las palabras de los dos idiomas es muy diferente. Debería obtener mejores resultados si tiene en cuenta las estructuras sintácticas o las estructuras semánticas al considerar los modelos de lenguaje y los modelos de traducción.
Seis años después de la publicación de este artículo, un grupo de investigadores implementó el paquete de software GIZA en el campamento de verano de traducción automática de la Universidad Johns Hopkins. Posteriormente, Franz Joseph Och optimizó el software para acelerar el entrenamiento. Especialmente la formación de IBM Model 3 a 5. Al mismo tiempo, propuso un Modelo 6 más complejo. El paquete de software lanzado por Och se llamó GIZA Hasta ahora, GIZA sigue siendo la piedra angular de la mayoría de los sistemas de traducción automática estadística.
Para el entrenamiento de corpus a gran escala, existen varias versiones paralelizadas de GIZA.
El rendimiento de la traducción automática estadística basada en palabras es limitado debido al pequeño tamaño de la unidad de modelado. Por lo tanto, muchos investigadores comenzaron a recurrir a métodos de traducción basados en frases. El método de entrenamiento discriminativo basado en el modelo de máxima entropía propuesto por Franz-Josef Och mejoró enormemente el rendimiento de la traducción automática estadística. En los años siguientes, el rendimiento de este método estuvo muy por delante de otros métodos. Un año después, Och modificó los criterios de optimización del método de máxima entropía y lo optimizó directamente en función de criterios de evaluación objetivos, dando origen así al método de entrenamiento de tasa de error mínima (Entrenamiento de tasa de error mínima) que se usa ampliamente en la actualidad.
Otro invento importante que promueve un mayor desarrollo de la traducción automática estadística es la aparición de métodos automáticos de evaluación objetiva, que proporcionan una manera de evaluar automáticamente los resultados de la traducción, evitando así la evaluación manual engorrosa y costosa. La evaluación más importante es el índice de evaluación BLEU. La mayoría de los investigadores todavía utilizan BLEU como criterio principal para evaluar los resultados de su investigación.
Moses es un software de traducción automática de código abierto y bien mantenido desarrollado por investigadores de la Universidad de Edimburgo. Su lanzamiento simplifica un procesamiento que antes era engorroso y complejo.
La traducción en línea de Google ya es bien conocida. La tecnología detrás de ella es un método de traducción automática estadística. El principio operativo básico es buscar una gran cantidad de contenido web bilingüe y usarlo como un corpus, que luego es. seleccionado automáticamente por la computadora se dan las correspondencias palabra por palabra más comunes y finalmente se dan los resultados de la traducción. Es innegable que la tecnología utilizada por Google es avanzada, pero todavía suele hacer varios "bromas de traducción". La razón es que los métodos basados en estadísticas requieren un corpus bilingüe a gran escala. La precisión de los modelos de traducción y los parámetros del modelo de lenguaje depende directamente de la cantidad de corpus, mientras que la calidad de la traducción depende principalmente de la calidad del modelo de probabilidad y la capacidad de cobertura. del corpus. Aunque los métodos basados en estadísticas no necesitan depender de una gran cantidad de conocimientos y se basan directamente en resultados estadísticos para la resolución de ambigüedades y la selección de traducciones, evitando muchas dificultades en la comprensión del lenguaje, la cantidad de selección y procesamiento de corpus es enorme. Por lo tanto, los sistemas de traducción automática en campos generales rara vez se basan en métodos estadísticos. La traducción automática basada en instancias es lo mismo que el método estadístico. El método de traducción automática basado en instancias también es un método basado en corpus. Su idea básica fue propuesta por Nagao Makoto, un famoso experto en traducción automática japonés. principiantes en idiomas extranjeros y descubrió que los principiantes en el aprendizaje de idiomas extranjeros siempre memorizan primero las oraciones más básicas en inglés y las oraciones japonesas correspondientes, y luego hacen ejercicios de sustitución. Refiriéndose a este proceso de aprendizaje, propuso la idea de la traducción automática basada en ejemplos, es decir, la traducción únicamente a través del conocimiento empírico existente y el principio de analogía sin un análisis en profundidad. El proceso de traducción consiste en descomponer correctamente primero el idioma de origen en oraciones y luego en fragmentos de frases, luego traducir estos fragmentos de frases en frases del idioma de destino mediante analogía y, finalmente, fusionar estas frases en oraciones largas. Para un sistema basado en el método de instancia, su principal fuente de conocimiento es la biblioteca de instancias de comparación bilingüe, que no requiere ningún diccionario o biblioteca de reglas gramaticales. El problema principal es obtener la biblioteca de instancias de comparación bilingüe a través de estadísticas máximas.
La traducción automática basada en ejemplos tiene un efecto muy significativo en la traducción del mismo texto o de uno similar. A medida que aumenta el tamaño de la biblioteca de oraciones de ejemplo, su efecto se vuelve cada vez más significativo. Para los textos existentes en la biblioteca de instancias, se pueden obtener directamente resultados de traducción de alta calidad. Para textos que son muy similares a las instancias existentes en la biblioteca de instancias, se pueden construir resultados de traducción aproximados mediante razonamiento analógico y una pequeña cantidad de modificaciones a los resultados de la traducción.
Este método fue muy elogiado por muchas personas cuando se introdujo por primera vez. Pero después de un tiempo surgieron problemas. Dado que este método requiere un gran corpus como soporte, la demanda real del lenguaje es muy grande. Sin embargo, debido al tamaño del corpus, es difícil para la traducción automática basada en ejemplos lograr una alta tasa de coincidencia. El efecto de la traducción solo puede cumplir con los requisitos de uso cuando se limita a campos específicos o profesionales.
Por lo tanto, hasta ahora, pocos sistemas de traducción automática han adoptado métodos puramente basados en instancias. Generalmente, los métodos de traducción automática basados en instancias se utilizan como uno de los múltiples motores de traducción para mejorar la precisión de la traducción.