En los últimos meses, la evolución de Google Translate parece haberse acelerado repentinamente.

El primer artículo enlaza con el sistema de traducción automática neuronal de Google: Cerrando la brecha entre la traducción humana y la automática:

En primer lugar, los sistemas de traducción anteriores tienen las siguientes deficiencias:

Traducción basada en fases El efecto de traducción de oraciones largas no es bueno

El costo de la capacitación del sistema y el razonamiento de la traducción es alto.

Difícil tratar con palabras raras

Las anteriores son deficiencias obvias que hacen que el sistema de traducción sea preciso y rápido en aplicaciones prácticas. La siguiente figura muestra el marco del algoritmo central del sistema de traducción:

El sistema de traducción automática neuronal de Google consta de una red LSTM profunda con 8 codificadores y 8 decodificadores. También agrega un mecanismo de atención y una conexión residual. Para aumentar el paralelismo y reducir el tiempo de entrenamiento, nuestro mecanismo de atención conecta la capa inferior del decodificador con la capa superior del codificador. Para acelerar la traducción final, utilizamos operaciones de baja precisión durante la inferencia y el cálculo. Para mejorar el procesamiento de palabras poco comunes, dividimos las palabras en un conjunto limitado de unidades de subpalabras comunes (componentes de palabras), que sirven como entrada y salida. Este enfoque puede proporcionar un equilibrio entre la flexibilidad del modelo separado por caracteres y la efectividad del modelo separado por palabras, manejar la traducción de palabras raras de forma natural y, en última instancia, mejorar la precisión general del sistema. Nuestra técnica de búsqueda por haz utiliza un proceso de normalización de longitud y una penalización de cobertura, lo que estimula la generación de oraciones de salida que potencialmente cubren todas las palabras de la oración fuente. En las 14 pruebas de referencia inglés-francés e inglés-alemán del WMT, GNMT logró resultados comparables a los mejores actuales. En comparación con el sistema basado en frases que Google ya está produciendo, mediante la evaluación comparativa de un único conjunto de oraciones simples, sus errores de traducción se redujeron en un promedio del 60%.

Lo anterior es la traducción abstracta del artículo. Con la aplicación del aprendizaje profundo en el campo del procesamiento del lenguaje natural y la introducción de algunos algoritmos nuevos, como la normalización por lotes, varias variantes de LSTM y mecanismos de atención, se ha mejorado el rendimiento de las aplicaciones prácticas. Pero Google sigue siendo una gran empresa y siempre genera grandes noticias.

"text/javascript" src="/style/tongji.js">