Indicadores de evaluación para traducción automática y resumen automático

En las tareas de traducción automática, BLEU y ROUGE son dos indicadores de evaluación de uso común. BLEU mide la calidad de la traducción en función de la precisión y ROUGE mide la calidad de la traducción en función de la recuperación.

Después de utilizar métodos de aprendizaje automático para generar traducción de texto, es necesario evaluar el rendimiento de la traducción del modelo, lo que requiere algunos indicadores de evaluación de traducción automática, entre los cuales BLEU y ROUGE son indicadores de evaluación comunes. Estos dos indicadores tienen una historia relativamente antigua. BLEU se propuso en 2002 y ROUGE en 2003. Aunque existen algunos problemas con estos dos indicadores, siguen siendo indicadores de evaluación relativamente comunes para la traducción automática.

Generalmente se utiliza para representar la traducción de la traducción automática. Además, es necesario proporcionar m traducciones de referencia. Esta métrica de evaluación mide en qué medida la traducción automática coincide con la traducción de referencia.

El nombre completo de BLEU es Sustituto de Evaluación Bilingüe y el rango de puntuación de BLEU es de 0 a 1. Cuanto más se acerque la puntuación a 1, mayor será la calidad de la traducción. BLEU se centra en la precisión.

De hecho, el algoritmo BLEU original es muy simple. Cada uno de nosotros ha hecho este tipo de cosas intencionalmente o no: dos oraciones, S1 y S2, cuantas más palabras en S1 aparecen en S2, estas dos oraciones. Cuanto más consistentes se vuelven las palabras. Así: similitud('Me gustan las manzanas', 'Me gusta el inglés') = 2/3.

El numerador es el número de palabras de la traducción candidata (una vez que aparece, independientemente de si está en la misma traducción de referencia), y el denominador es el número de palabras de la traducción candidata.

Consulte el siguiente caso de error:

Proceso de cálculo:

Obviamente, esto es incorrecto y necesita mejoras.

Para ser más profesionales, los errores anteriores pueden entenderse como una generación excesiva de palabras "razonables", como the, on, que fácilmente pueden conducir a malos resultados de traducción pero a altas puntuaciones.

Además, hacemos estadísticas palabra por palabra, y los conjuntos basados ​​en una palabra se denominan colectivamente unigramas. Si es así {"el gato", "el gato está", "está en", "en el" y "la alfombra"}, un grupo de dos palabras adyacentes similares a "el gato" se llama bigrama Grupos (tuplas), y así sucesivamente: triples, cuádruples,..., tuplas (n-tuplas), y el conjunto se convierte en un número complejo:

Vale, el problema con el algoritmo anterior es en realidad Cálculos de moléculas. Cambiémoslo a esto:

Explicación: para traducción candidata de un solo salto -

Por ejemplo:

De hecho, el n-grama mejorado es preciso. La puntuación se puede utilizar para medir la idoneidad y fluidez de la evaluación de la traducción: una tupla pertenece al nivel de carácter, centrándose en la idoneidad de la traducción, es decir, midiendo su capacidad de traducción palabra por palabra hasta el nivel de vocabulario; centrándose en la fluidez de la traducción. Si sus frases son precisas, su discurso naturalmente se volverá más fluido. Por lo tanto, podemos utilizar múltiples conjuntos de múltiples puntuaciones de precisión para medir los resultados de la traducción.

El método de procesamiento de BLEU es en realidad el mismo: trata varias oraciones como una sola oración:

No se deje confundir por la fórmula de suma aquí. Trunca todos los párrafos candidatos de N-gramas como numerador, y el denominador es el número de párrafos candidatos de N-gramas.

Se menciona en 3.2 que los indicadores bajo unigrama pueden medir la idoneidad de la traducción, y los indicadores bajo n-grama pueden medir la fluidez de la traducción. Se recomienda usarlos juntos. Entonces, ¿cómo combinarlos correctamente?

No hay duda de que la suma es la media. La práctica profesional requiere elegir un promedio ponderado según la situación, e incluso realizar algunas modificaciones a la fórmula original.

Primero, observe el cálculo de precisión de un resultado de traducción bajo diferentes N-gramas:

El hecho es que a medida que aumentan los n-gramas, la puntuación de precisión general disminuye exponencialmente. Se puede considerar aproximadamente como una disminución exponencial con n. Lo que usamos aquí es el promedio ponderado geométrico, que trata el papel de cada n-grama como igualmente importante, es decir, el peso se distribuye uniformemente.

En correspondencia con la figura anterior, la fórmula se expresa simplemente como:

Observando de cerca la medida mejorada de precisión de n-gramas, cuando la oración traducida es más larga que la traducción de referencia, la Se aumenta el denominador, lo que penaliza relativamente la traducción de frases más largas. ¡Cuanto más corta sea la frase de traducción, más grave es! Por ejemplo, así:

Obviamente, la puntuación de precisión de la traducción candidata vuelve a ser. Traducir frases cortas es así, es fácil conseguir puntuaciones altas... por lo que hay que diseñar una medida de castigo eficaz para controlarlo.

En primer lugar, llamamos a un sustantivo la "longitud de mejor coincidencia", es decir, si la longitud de la oración traducida es la misma que la longitud de cualquier traducción de referencia, se considera que cumple con la mejor longitud. longitud coincidente. En este caso, no penalice y el factor de penalización debe establecerse en 1.

Mirando la fórmula anterior, es el número de palabras en la traducción de referencia y el número de palabras en la traducción candidata representa el valor de penalización corta de la oración traducida. Por lo tanto, la fórmula para calcular el valor final es:

A través de repetidas mejoras y correcciones, este algoritmo BLEU básicamente puede otorgar rápidamente puntajes de evaluación relativamente valiosos. No se puede hacer y no es necesario que sea preciso. Simplemente proporciona una línea de referencia para juzgar.

El nombre completo del índice ROUGE es (en estudio orientado a la recuperación para dar evaluación), que se basa principalmente en la tasa de recuperación. Rough es un índice de evaluación de uso común para traducción automática y resúmenes de artículos. Fue propuesto por Lin Jinyao. Propuso cuatro métodos aproximados en su artículo:

ROUGE-N cuenta principalmente la tasa de recuperación en N-gramas. Para N-gram, se puede calcular la puntuación de ROUGE-N. La fórmula de cálculo es la siguiente:

El denominador de la fórmula es el número de n-grams en la traducción de referencia estadística y el numerador es. el número de n-gramas en la traducción de referencia estadística y el número de traducción automática.

Las puntuaciones de ROUGE-1 y ROUGE-2 del ejemplo anterior son las siguientes

Si se dan varias traducciones de referencia, Lin Jinyao también dio un método de cálculo, asumiendo que hay m traducciones S1,.., SM. ROUGE-N calculará las puntuaciones de ROUGE-N de la traducción automática y estas traducciones de referencia respectivamente, y tomará el valor máximo. La fórmula es la siguiente. Este método también funciona con coarse-l, coarse-w y coarse-s.

L gruesa-L se refiere a la subsecuencia común más larga, LCS). El cálculo de L aproximado utiliza la subsecuencia común más larga de la traducción automática C y la traducción de referencia S. La fórmula de cálculo es la siguiente:

ROUGE-W es una versión mejorada de Rouge-L. Considere el siguiente ejemplo. : Traducción, Y1, Y2 representan dos traducciones automáticas.

En este ejemplo, es obvio que la calidad de traducción de Y1 es mayor porque Y1 tiene más traducciones coincidentes consecutivas. Pero las puntuaciones calculadas por L aproximado son en realidad las mismas, es decir, L aproximado (x, y1) = L aproximado (x, y2).

Por lo tanto, el autor propone un método de subsecuencia común más larga ponderada (WLCS), que puede otorgar a las traducciones consecutivas una puntuación más alta en precisión. Para obtener más información, lea el artículo original Rough: un paquete para evaluar resúmenes automáticamente.

ROUGE-S también se considera un N-grama, pero el N-grama que utiliza permite "saltar", es decir, no es necesario que las palabras aparezcan consecutivamente. Por ejemplo, el salto de 2 gramos de la oración "Tengo un gato" incluye (yo, tengo), (yo, un), (yo, gato), (tengo, un), (tengo, gato), (un , gato) .