La traducción automática es una disciplina integral basada en múltiples disciplinas. El desarrollo de la lingüística teórica moderna, los avances en la informática y la aplicación de la informática y las estadísticas de probabilidad han tenido un impacto importante en el desarrollo y la evolución de la traducción automática. La idea básica de la traducción automática es utilizar computadoras para traducir lenguajes naturales. , pero varios sistemas de traducción automática utilizan tecnologías y conceptos diferentes. Frente a diversos sistemas de traducción automática, existen varios métodos de clasificación en la literatura. Con base en los principios básicos de funcionamiento de los sistemas de traducción automática, se resume la clasificación de los sistemas de traducción automática.
1. Tipos básicos de sistemas de traducción automática: según sus principios básicos de funcionamiento, los sistemas de traducción automática existentes se pueden dividir en tres tipos básicos: traducción automática basada en reglas, traducción automática basada en instancias y traducción automática estadística. .
1.1. Traducción automática basada en reglas (RBMT): Su principio básico de funcionamiento se basa en el supuesto de que se pueden derivar oraciones con infinitos idiomas a partir de reglas limitadas. Los métodos de traducción automática basados en este supuesto se pueden dividir en tres categorías: método de traducción directa, método interlingüístico y método de transferencia. Ambos requieren el uso de grandes diccionarios bilingües, reglas de derivación del idioma de origen, reglas de conversión del idioma y reglas de generación del idioma de destino. La diferencia radica en la profundidad del análisis del idioma. Por ejemplo, el método de traducción literal casi no requiere análisis del idioma, mientras que el método del idioma intermedio y el método de conversión requieren un análisis del idioma de origen y de destino hasta cierto punto.
1.1.1 Traducción directa: este método de traducción traduce directamente las palabras del texto original una por una, y las palabras traducidas se organizan en el orden del texto original. Este es el primer método de trabajo de traducción automática basada en reglas. Este método de traducción es simple e intuitivo, pero sus deficiencias también son obvias: la calidad de los resultados de traducción obtenidos por este método es muy insatisfactoria. Poco a poco la gente ha ido dejando de utilizar este método de traducción directa.
1.1.2 Método interlingüístico: este método de traducción realiza un análisis lingüístico exhaustivo de los caracteres en el idioma de origen, los convierte en expresiones del idioma intermedio y luego genera y genera palabras que cumplen con las reglas gramaticales de los caracteres del idioma de destino. Esta lengua intermedia es una lengua no natural, es decir, no es una lengua hablada por personas de ningún país o región, esta es una expresión clara; Además, el idioma intermedio no es único y diferentes sistemas utilizan diferentes idiomas intermedios. Traducir cualquier idioma a cualquier otro idioma a través de un idioma intermedio es teóricamente el método de traducción más eficiente. Suponiendo que siempre hay n lenguajes naturales en el mundo, entonces el problema de traducción mutua entre todos los lenguajes naturales solo se puede resolver utilizando el método del lenguaje intermedio de 2n módulos. Sin utilizar un idioma intermedio, la traducción entre estos idiomas requiere n (n-1) módulos. Cuando n es mayor que 3, 2n es menor que n (n-1). Sabemos que la cantidad de lenguajes naturales en el mundo es mucho mayor que 3, por lo que la cantidad de 2n módulos es mucho menor que la cantidad de n (n-1) módulos.
1.1.3 Método de transferencia: este método de traducción primero analiza el idioma de origen hasta cierto punto, elimina factores gramaticales, genera una expresión intermedia del idioma de origen y luego genera una expresión intermedia del idioma de destino a través de conversión Luego, la expresión intermedia del idioma de destino se utiliza para generar y generar texto que se ajuste a las reglas gramaticales del idioma de destino. El método actual de análisis del lenguaje e implementación del método de conversión es el más complejo entre los tres métodos, y la calidad de traducción obtenida también es la mejor entre los tres métodos. Actualmente es el método de traducción más utilizado en los negocios y también el de mayor éxito en los negocios.
En muchos sistemas de traducción automática basados en reglas, los lingüistas ayudan a escribir una serie de reglas gramaticales sobre los idiomas de origen y de destino, así como reglas de transformación para convertir datos del idioma de origen en datos del idioma de destino. Sin embargo, desarrollar estas reglas manualmente es costoso, requiere mucho tiempo y es propenso a errores. Una solución es utilizar resultados de traducciones históricas pasadas como biblioteca de recursos, donde el idioma de origen y su correspondiente traducción al idioma de destino se utilizan como ejemplos para intentar extraer las reglas apropiadas. Un método consiste en etiquetar manualmente el texto de origen y las traducciones del idioma de destino para mostrar su relevancia. Sato Language y Gao Na [1] desarrollaron un sistema que utiliza un "árbol de dependencia plano" para representar el idioma de origen y el idioma de destino. Esta estructura de datos de árbol relacional es una forma eficaz de reconocimiento informático.
Generalmente se utilizan dos niveles para expresar la relación entre el idioma de origen y el idioma de destino: el primer nivel depende de la forma superficial de la palabra (como las palabras y el orden de las palabras) y se utiliza para el análisis del idioma de origen y el generación del idioma de destino; el segundo nivel Depende de la asociación semántica entre palabras y se utiliza para la conversión del idioma de origen al idioma de destino. Este sistema de traducción automática aprovecha la biblioteca de casos basada en traducción automática basada en reglas.
Con la acumulación de una gran cantidad de resultados de traducción históricos, han surgido sistemas de traducción automática basados en instancias. La gente utiliza estos resultados de traducción completos como una biblioteca de recursos para la traducción automática.
1.2. Traducción automática basada en ejemplos (EBMT): su principio de funcionamiento básico es hacer coincidir los fragmentos de texto más similares a los fragmentos de texto fuente de la biblioteca de instancia y extraer los resultados de la traducción del idioma de destino correspondiente. a los fragmentos de texto de la instancia se realizan las conversiones apropiadas y el resultado final es una traducción completa. La idea central de la traducción automática basada en casos fue propuesta por primera vez por Makon Nagao, quien sugirió que las personas no deberían realizar un análisis del lenguaje en profundidad al traducir oraciones simples, sino traducir. La oración fuente primero se divide en fragmentos y luego estos fragmentos se traducen al idioma de destino. La traducción de cada fragmento se obtiene por comparación y analogía con las oraciones de ejemplo. Finalmente, estas oraciones traducidas se combinan en una oración larga.
1.2.1. Composición de la biblioteca de casos: La biblioteca de casos, también llamada corpus, está formada por los resultados completos de la traducción. Estos resultados de traducción listos para usar también se denominan corpus, e incluyen resultados de traducción humana y resultados de traducción automática editados. El corpus consta de pares bilingües y consta de dos partes: segmentos de texto del idioma de origen y segmentos de texto de traducción del idioma de destino. Estas traducciones deben segmentarse y alinearse antes de convertirse en un corpus utilizable. Por lo tanto, el corpus también se denomina corpus bilingüe paralelo (corpus paralelo). Actualmente existen muchas formas de alineación dividida, como la alineación a nivel de oración y la alineación a nivel de frase. La elección del tamaño del fragmento de texto alineado afectará directamente la eficiencia de la comparación y los resultados de la traducción.
1.2.2. Fragmentación del corpus: Nirenburg et al. (1993) señalaron que en el sistema de traducción automática basado en ejemplos (EBMT), existe una contradicción entre la longitud y la similitud de un fragmento de texto. Cuanto más largo sea el segmento de texto, más difícil será obtener una coincidencia de alta similitud; cuanto más corto sea el segmento de texto, más probabilidades habrá de obtener una coincidencia aproximada, pero mayor será el riesgo de obtener resultados de traducción de baja calidad. Por ejemplo, problemas de superposición causados por la división de límites de párrafos y degradación de la calidad de la traducción causada por una división inadecuada. Intuitivamente, parece mejor elegir pares de corpus divididos por oraciones. Esto tiene muchos beneficios, como límites claros de las oraciones y estructuras claras de algunas oraciones simples. Pero en aplicaciones prácticas, utilizar oraciones como unidades no es la forma más adecuada. La práctica ha demostrado que el proceso de emparejamiento y recombinación requiere el uso de fragmentos más cortos (por supuesto, estos hallazgos se basan en estudios de traducción entre lenguas europeas y americanas).
1.2.3. alcance y calidad de la biblioteca de casos Afecta la calidad de la traducción de "EBMT". Obtener corpus de alta calidad en un campo específico puede mejorar en gran medida la calidad de la traducción automática en ese campo. Esta es la llamada personalización de la biblioteca de corpus (muestra).
1.3. MT estadística: Brown de IBM aplicó por primera vez modelos estadísticos a la traducción automática francés-inglés en 1990. La idea básica es considerar la traducción automática como un problema de canal ruidoso y luego utilizar el modelo de canal para la decodificación. El proceso de traducción se considera un proceso de decodificación, que a su vez se convierte en un proceso de búsqueda de los mejores resultados de traducción. El punto clave de la traducción automática basada en esta idea es definir el modelo de probabilidad del lenguaje y el modelo de probabilidad de traducción más apropiados, y luego estimar los parámetros de probabilidad del modelo de lenguaje y el modelo de traducción. La estimación de parámetros de modelos lingüísticos requiere una gran cantidad de corpus monolingües, mientras que la estimación de parámetros de modelos de traducción requiere una gran cantidad de corpus bilingües paralelos. La calidad de la traducción automática estadística depende en gran medida del rendimiento de los modelos lingüísticos y de traducción. Además, encontrar la mejor traducción requiere un buen algoritmo de búsqueda. En pocas palabras, la traducción automática estadística primero establece un modelo estadístico y luego utiliza ejemplos en la biblioteca de casos para entrenar el modelo estadístico para obtener el modelo de lenguaje y el modelo de traducción necesarios para la traducción.
La traducción automática estadística, además de sistemas basados en la teoría del canal de ruido, también cuenta con sistemas basados en el método de máxima entropía.
AL Berger propuso el "método de máxima entropía" en el procesamiento del lenguaje natural en 1996. El alemán Franz Joseph Och descubrió que al convertir el modelo de traducción de las ecuaciones básicas de la traducción automática estadística de IBM en un modelo de traducción inversa, la precisión general de la traducción no disminuía. Por tanto, propusieron un modelo de traducción automática basado en el método de máxima entropía.
La traducción automática estadística ha logrado algunos resultados, pero el diseño estadístico puro no puede resolver todas las dificultades. Los métodos estadísticos no consideran los factores semánticos y gramaticales del lenguaje y solo utilizan métodos matemáticos para abordar problemas del lenguaje, lo que tiene grandes limitaciones. Entonces la gente comenzó a explorar la aplicación conjunta de métodos estadísticos y otros métodos de traducción. Por ejemplo, sistemas de traducción automática basados en estadísticas y instancias, sistemas de traducción automática basados en estadísticas y reglas, etc.
2. Sistema integral de traducción automática:
Los tres sistemas básicos de traducción automática anteriores tienen cada uno sus propias ventajas y desventajas, pero también inevitablemente tienen algunos defectos y limitaciones. Por ejemplo, los sistemas de traducción automática basados en reglas (RBMT) pueden describir con precisión las características y reglas del lenguaje, pero no es fácil formular reglas lingüísticas aplicables y completas. El sistema de traducción automática basado en casos (EBMT) puede aprovechar al máximo los resultados de traducción existentes, pero el mantenimiento de la biblioteca de casos requiere mucha mano de obra y gastos. La traducción automática estadística (MT estadística) puede aliviar el problema del cuello de botella en la adquisición de conocimientos, pero los métodos matemáticos puros son difíciles de resolver por completo problemas complejos en el lenguaje. Para mejorar aún más el nivel de traducción del sistema de traducción automática, las personas combinaron las ventajas de los tipos básicos anteriores para inventar sistemas de traducción automática híbridos y sistemas de traducción automática de múltiples motores, y propusieron una teoría de sistemas de traducción automática basada en el conocimiento.
2.1 MT híbrida: En el proceso de traducción se utilizan dos o más principios de traducción automática. Por ejemplo, el núcleo del método de traducción automática basado en reglas es construir un sistema de reglas completo y adaptable. Cómo obtener un sistema de reglas completo y adaptable se ha convertido en el foco de la investigación. Utilizando métodos tradicionales, establecer una base de reglas gramaticales requiere mucha mano de obra y recursos materiales. A menudo hay conflictos inevitables entre una gran cantidad de reglas gramaticales del lenguaje, y no se puede garantizar la integridad y adaptabilidad de las reglas. Con el progreso del trabajo de traducción de las personas, se han producido una gran cantidad de resultados de traducción completos, formando una gran cantidad de corpus. La gente piensa en utilizar métodos estadísticos para extraer automáticamente la información gramatical del idioma que necesitamos de los corpus existentes. Extraiga reglas de conversión de idiomas a partir de ejemplos, utilice la traducción automática basada en casos como tecnología de investigación y establezca la base de las reglas del idioma en lugar de una simple traducción por analogía. Mediante un proceso inductivo se proponen reglas abstractas a partir de un gran número de frases de ejemplo. De esta manera, el método tradicional de traducción automática basado en reglas se convierte en un método de traducción automática asistida por corpus basado en reglas. Este modelo de traducción puede denominarse traducción automática híbrida.
2.2 Sistema de traducción automática (MT) multimotor: La idea básica de este sistema de traducción automática es que varios motores de traducción automática realicen traducción paralela al mismo tiempo. Estos motores de traducción de traducción paralela proporcionan múltiples. Las traducciones se basan en diferentes principios de trabajo. Los resultados de la traducción se filtran a través de algún mecanismo o algoritmo para generar los resultados de traducción óptimos para la salida. Un modo de trabajo del sistema de traducción automática multimotor es: después de recibir el texto fuente, primero convierte el texto en varios fragmentos de texto, que son traducidos por múltiples motores de traducción automática en paralelo, de modo que cada fragmento de texto obtenga múltiples resultados de traducción. Un determinado mecanismo selecciona los fragmentos de traducción óptimos para formar la combinación óptima y finalmente genera el resultado de traducción óptimo. O, después de recibir el texto fuente, varios motores de traducción automática realizan una traducción paralela para obtener múltiples resultados de traducción y luego comparan las palabras de cada resultado de traducción y seleccionan la traducción de palabras adecuada mediante algunas pruebas de hipótesis y algoritmos para formar la traducción de palabras más óptima. Excelente resultado de traducción.
2.3. Traducción automática basada en el conocimiento: En la investigación de la traducción automática, las personas son cada vez más conscientes de la importancia de comprender y apreciar correctamente el idioma de origen en el proceso de traducción. El lenguaje tiene sus complejidades. Entre ellos, la ambigüedad del lenguaje es el problema más difícil al que se enfrentan varios sistemas de traducción automática. La confusión del lenguaje significa que a la misma estructura superficial del lenguaje corresponde dos o más estructuras profundas.
En pocas palabras, una forma corresponde a dos o más interpretaciones. Sólo a través de las indicaciones del contenido contextual, combinadas con conocimientos previos y sentido común, se puede realizar una interpretación correcta. Afectados por el desarrollo de la inteligencia artificial y la ingeniería del conocimiento, la gente comenzó a enfatizar una comprensión más profunda del idioma de origen, proponiendo no solo un análisis del lenguaje en profundidad, sino también la acumulación y el procesamiento del conocimiento mundial, el establecimiento de una base de conocimiento, y la ayuda de la comprensión del lenguaje. A través de la comprensión del conocimiento mundial, se puede resolver el problema de ambigüedad del lenguaje que surge en la traducción automática. Para resolver fundamental y completamente el problema de ambigüedad lingüística al que se enfrenta la traducción automática, se han propuesto sistemas de traducción automática basados en el conocimiento.
2.3.1 Traducción automática basada en Web Semántica (SWMT): Es una implementación de un sistema de traducción automática basado en conocimiento. La Web Semántica se refiere al uso de ciertas tecnologías para transformar el contenido de conocimiento existente en Internet en contenido que pueda ser reconocido por máquinas y convertirse en una "base de conocimiento mundial" para la traducción automática. Estas teorías se basan en la opinión de Tim Berners-Lee de que "una vez definido y formalizado, el conocimiento puede adquirirse de cualquier forma". La World Wide Web se diseñó originalmente para ser simple, descentralizada y lo más interactiva posible. El crecimiento de la red resultó ser un gran éxito. Sin embargo, toda la información en Internet es para el cerebro humano. Para permitir que las computadoras acepten y utilicen estos recursos de información, en el nuevo siglo ha surgido una tecnología ampliada y complementaria, llamada W3C y Web Semántica3. La tecnología básica de la web semántica tridimensional es el formato de datos "Resource Description Framework" (RDF), que define una estructura para describir los datos masivos procesados por las computadoras de forma natural [8]. Actualmente, la gente está intentando integrar los sistemas de traducción automática existentes en la Web Semántica para aprovechar al máximo el conocimiento mundial/conocimiento experto y mejorar la calidad de la traducción automática.
3. Traducción de voz: La traducción de voz es una clasificación de traducción automática correspondiente a la traducción de texto, que es diferente a la clasificación anterior. Pero tiene una amplia gama de aplicaciones, como la traducción automática de contenido de comunicación de voz en conversaciones diarias, conversaciones telefónicas y discursos de conferencias, y es muy importante en aplicaciones prácticas. La traducción de voz agrega un proceso de reconocimiento de SpeechB antes de la traducción para formar la entrada correcta del contenido del texto y un proceso de síntesis de voz después de que se completa el proceso de traducción.
Formule una salida de contenido de voz correcta. Entre ellos, hay estudios especiales sobre tecnología de reconocimiento de voz y tecnología de síntesis de voz, que no se describirán aquí.
Nombre del autor: Hong Jie
Unidad de trabajo: Centro de ingeniería multilingüe de Chuanshenyu Network Technology Co., Ltd.
Nombre del autor: Hong Lei
Unidad de trabajo: Departamento de Lenguas Extranjeras, Academia de Ciencias de China