Usando la fórmula bayesiana y considerando que para una f dada, p(f) es una constante, la fórmula anterior equivale a
De esto, obtenemos dos partes de la probabilidad:
P(f | e) se refiere a la probabilidad de observar una señal de una fuente de señal determinada. A esto se le llama modelo de traducción. P(e), la probabilidad de ocurrencia de la fuente. Aquí se llama modelo de lenguaje y podemos entender modelos de traducción y modelos de lenguaje como este. Los patrones de traducción son correspondencias entre palabras de un idioma a otro, mientras que los patrones lingüísticos encarnan la naturaleza del idioma mismo. El modo de traducción garantiza el significado de la traducción y el modo de idioma garantiza una traducción fluida. Desde la perspectiva de los requisitos tradicionales chinos de "fidelidad, expresividad y elegancia", el modelo de traducción refleja confiabilidad y expresividad, mientras que la elegancia refleja el modelo del idioma.
En principio, cualquier modelo de lenguaje se puede aplicar a la fórmula anterior, por lo que la siguiente discusión se centra en el modelo de traducción. En el modelo propuesto por IBM, la probabilidad de traducción se define como:
P(f | e) = p(f, a | e) donde a se define como una variable implícita - alineación de palabras, entonces- Se llama alineación de palabras, en pocas palabras, es saber qué palabra de la oración del idioma de origen está traducida del idioma de destino. Por ejemplo, en la imagen de la derecha, una palabra puede traducirse en una o más palabras, o incluso no traducirse en absoluto. Por tanto, el problema de obtener probabilidades de traducción se transforma en un problema de alineación de palabras. Los modelos de la serie IBM, HMM y Model 6 son modelos paramétricos de alineación de palabras. La diferencia entre los dos es el número y tipo de parámetros del modelo. Por ejemplo, en IBM Model 1, el único parámetro es la probabilidad de traducción de una palabra, que no tiene nada que ver con la posición de la palabra en la oración. Es decir:
Donde (I, j) es una conexión en la alineación de palabras, lo que significa que la I-ésima palabra en el idioma de origen se traduce a la j-ésima palabra en el idioma de destino. Tenga en cuenta que la probabilidad de traducción aquí es entre palabras, no entre posiciones. Agregue la posición de la palabra en la oración a los parámetros de IBM Model 2, la fórmula es:
donde I y j son las longitudes de las oraciones del idioma de origen y del idioma de destino, respectivamente.
El modelo HMM cambia la posición absoluta en el modelo 2 de IBM a una posición relativa, es decir, la posición conectada a la palabra anterior, mientras que los modelos 3, 4, 5, 4, 5 y 6 de IBM introducen "Modelo de fertilidad", que representa la probabilidad de que una palabra se traduzca en varias palabras.
En la estimación de parámetros, el criterio de máxima verosimilitud se utiliza generalmente en el entrenamiento no supervisado. Para una gran cantidad de "corpus paralelos", es decir, algunas oraciones traducidas mutuamente (fs, es),
Dado que no existe una solución óptima simbólica directa, en la práctica se utiliza el algoritmo EM. Primero, use el modelo existente para estimar todas las probabilidades de alineación de palabras posibles (o parte de las más probables) para cada par de oraciones, cuente las frecuencias ponderadas de todos los valores de los parámetros y finalmente normalice. Para IBM Model 1, 2, existe una fórmula simplificada para obtener estadísticas para todas las alineaciones de palabras posibles, ya que no se necesita ningún modelo de fertilidad, mientras que para otros modelos, iterar sobre todas las alineaciones de palabras es NP-difícil. Por tanto, sólo podemos adoptar un enfoque de compromiso. En primer lugar, la alineación de Viterbi se define como la alineación de palabras con la mayor probabilidad bajo el parámetro del modelo actual θ:
Después de obtener la alineación de Viterbi, solo puede contar las estadísticas relevantes de los resultados de la comparación, o También puede contar las estadísticas relevantes en función de la comparación. Haga algunas modificaciones a la situación (es decir, busque alineaciones "adyacentes") y luego calcule las estadísticas. IBM 3, 4, 5 y Model 6 utilizan este enfoque.
Actualmente, pocos sistemas utilizan directamente modelos de canales ruidosos para una traducción automática completa. Sin embargo, su subproducto, la alineación de palabras, se ha convertido en la piedra angular de varios sistemas de traducción automática estadística. Hasta ahora, la mayoría de los sistemas utilizan GIZA++ por primera vez para alinear una gran cantidad de corpus paralelos. Debido al creciente número de corpus paralelos, el enfoque en la velocidad ha llevado a la aplicación de implementaciones paralelas como MGIZA++ y PGIZA++. Los modelos de canales ruidosos y la alineación de palabras siguen siendo temas de investigación candentes. Aunque la tasa de error de comparación de GIZA++ para lenguas indoeuropeas es muy baja, la tasa de error para comparaciones de lenguas indoeuropeas entre árabe, chino y otros idiomas sigue siendo muy alta. Especialmente para los chinos, la tasa de error suele alcanzar más del 30%.
La llamada "plataforma de nueve capas" surge de la acumulación de tierra. La falta de alineación precisa de las palabras es la razón por la cual la traducción automática china está muy por detrás de otros idiomas. Aunque existen algunas técnicas distintivas de alineación de palabras, la alineación no supervisada sigue siendo una parte importante. Bajo este marco, m funciones características
se pasan a través de una fórmula paramétrica
donde el peso de cada función característica y el conjunto de parámetros que será estimado por el modelo están representados por λ. Con base en este modelo, el criterio para determinar la mejor traducción de una determinada oración F en el idioma de origen es el siguiente:
En resumen, se trata de encontrar la solución que maximice la función característica.
En principio, cualquier función característica se puede colocar bajo este marco, y el modelo de traducción y el modelo de lenguaje en el modelo de canal de ruido se pueden usar como funciones características. Y el "modelo de retrotraducción" que no se puede utilizar en el modelo de producción, es decir, p (f, e), también se puede introducir fácilmente en este marco. Actualmente, en los sistemas de traducción basados en frases, las funciones características más utilizadas incluyen:
1 La probabilidad de traducción de frases2. Probabilidad de traducción de palabras (probabilidad de cada palabra en la frase)3. Probabilidad de traducción de frase inversa4. La probabilidad de traducción inversa de palabras es 5. También se agregaron un modelo de lenguaje y algunas características gramaticales. El criterio de optimización se refiere a cómo estimar los parámetros del modelo λ dado el corpus de entrenamiento. En términos generales, los parámetros del modelo de entrenamiento requieren una serie de textos traducidos, y cada oración del idioma fuente fs tiene una traducción de referencia rs.
Al principio, el entrenamiento diferencial se colocaba bajo el criterio de máxima entropía, es decir:
Este criterio es simple y rápido. Dado que el objetivo de optimización es convexo, la velocidad de convergencia es. rápido. Pero un gran problema es que la "entropía de la información" en sí misma no tiene nada que ver con la calidad de la traducción, y es difícil explicar lógicamente la optimización de la entropía de la información para obtener mejores resultados de traducción. Con la ayuda de estándares de evaluación objetivos como BLEU, esperamos que la optimización directa de estos estándares objetivos pueda mejorar el rendimiento de la traducción. Como resultado, se genera un algoritmo de entrenamiento que minimiza la tasa de error. Al optimizar los parámetros del sistema, el sistema de traducción obtiene puntuaciones cada vez más altas en criterios de evaluación objetivos. Al mismo tiempo, la mejora continua de los estándares de evaluación objetivos y su acercamiento cada vez más a los estándares de evaluación subjetivos son las dos líneas principales de la traducción automática estadística actual.
Utilizar estos criterios objetivos de evaluación como objetivos de optimización, a saber:
Uno de los principales problemas es que no se puede garantizar la convergencia. Además, no se puede obtener la derivada de la función de error (es decir, el criterio de evaluación objetivo), lo que limita los métodos de optimización disponibles. Actualmente, los métodos más utilizados son en su mayoría métodos de Powell mejorados, que generalmente requieren mucho tiempo para entrenarse y no pueden entrenar una gran cantidad de datos. En la etapa de preprocesamiento del corpus, es necesario recopilar o descargar corpus paralelos. El llamado corpus paralelo se refiere a la traducción de dos oraciones en cada línea del corpus. Actualmente, existe un gran número de corpus paralelos disponibles para su descarga en Internet. Busque corpus adecuados para el dominio de destino (como medicina, periodismo, etc.). ) es un método importante para mejorar el rendimiento de los sistemas de traducción automática estadística en campos específicos.
Después de obtener el corpus, necesitamos realizar alguna normalización del texto, como la segmentación de morfemas en inglés, como separar s en una palabra y aislar los símbolos conectados a la palabra. Para el chino, se requiere la segmentación de palabras. Al mismo tiempo, intente filtrar algunas oraciones con errores de código, oraciones que sean demasiado largas u oraciones que no coincidan en longitud (la diferencia es demasiado grande).
El corpus obtenido se puede dividir en tres partes. La primera parte se utiliza para la alineación de palabras y la extracción de frases, la segunda parte se utiliza para el entrenamiento de la tasa de error mínima y la tercera parte se utiliza para la evaluación del sistema. En la segunda y tercera parte de los datos, es mejor tener varias traducciones de referencia para cada oración en el idioma de origen. Primero, use GIZA++ para alinear los corpus paralelos. Debido a que GIZA++ es una alineación de palabras unidireccional, debe alinearse dos veces, una del origen al destino y la segunda del destino al origen. En términos generales, GIZA ++ necesita alinear IBM Model 1, HMM e IBM Model 3 y 4 en secuencia, porque el efecto de alineación de IBM Model 2 no es bueno e IBM Model 5 lleva demasiado tiempo y no contribuye mucho al rendimiento. Dependiendo del tamaño del corpus paralelo y del número de iteraciones establecidas, el tiempo de entrenamiento puede ser muy largo. Un dato de referencia es un corpus paralelo de 100.000 chino-inglés (alrededor de 300 millones de palabras) que se ejecuta en un servidor Inter Xeon de 2,4 GHz durante aproximadamente 6 días. Si lleva demasiado tiempo, puede considerar usar MGIZA++ y PGIZA++ para la alineación paralela (PGIZA++ admite la alineación distribuida).
Luego, los resultados de la alineación de GIZA++ en ambas direcciones se combinan para la extracción de frases.
Minimizar el entrenamiento de la tasa de error optimiza un criterio de optimización dado optimizando los pesos de características λ en la segunda parte de los datos (el conjunto de ajuste). Los criterios de optimización comunes incluyen entropía de información, BLEU, ter, etc. En esta etapa, es necesario utilizar el decodificador para decodificar el conjunto de optimización varias veces. Cada decodificación produce los n resultados de puntuación más alta y ajusta los pesos de las características. Cuando se ajustan las ponderaciones, la clasificación de los n resultados también cambiará, y el que tenga la puntuación más alta, el resultado de decodificación, se utilizará para calcular la puntuación BLEU o TER. Cuando se obtiene un nuevo conjunto de pesos para mejorar la puntuación de todo el conjunto de optimización, se vuelve a realizar la siguiente ronda de decodificación. Esto se repite hasta que no se observe ninguna nueva mejora.
Dependiendo del valor elegido de n, el tamaño del conjunto de optimización, el tamaño del modelo y la velocidad del decodificador, el tiempo de entrenamiento puede tardar horas o días. La decodificación se puede realizar utilizando los pesos obtenidos mediante el entrenamiento para minimizar la tasa de error. Normalmente, el rendimiento del sistema se puede evaluar en el equipo de prueba en este punto. Sobre la base de una evaluación objetiva, algunas instituciones calificadas suelen realizar evaluaciones subjetivas.