En 1954, la Universidad de Georgetown, en cooperación con IBM, completó el primer experimento de traducción automática inglés-ruso utilizando la computadora IBM-701, demostrando la viabilidad de la traducción automática al público y a los científicos. comunidad, dando inicio así a la investigación sobre la traducción automática.
No es demasiado tarde para que China inicie esta investigación. Ya en 1956, el país incluyó esta investigación en el plan nacional de desarrollo del trabajo científico, y el título era "Traducción automática, construcción de reglas de traducción del lenguaje natural y teoría matemática del lenguaje natural". Desde 65438 hasta 0957, el Instituto de Lingüística de la Academia de Ciencias de China y el Instituto de Tecnología Informática cooperaron para realizar experimentos de traducción automática ruso-chino, y se tradujeron un total de 9 tipos diferentes de oraciones relativamente complejas.
Desde la década de 1950 hasta la primera mitad de la de 1960, la investigación sobre la traducción automática estuvo en auge. Con fines militares, políticos y económicos, las dos superpotencias, Estados Unidos y la ex Unión Soviética, han brindado una gran cantidad de apoyo financiero para proyectos de traducción automática. Los países europeos también otorgan gran importancia a la investigación en traducción automática debido a necesidades geopolíticas y económicas. Traducción automática Se convirtió en una moda por un tiempo. Durante este período, aunque la traducción automática acaba de comenzar, ha entrado en un período de optimismo y prosperidad. (1964-1975)
En 1964, para evaluar el progreso de la investigación de la traducción automática, la Academia Nacional de Ciencias estableció el Comité Asesor de Procesamiento Automático del Lenguaje (Comité ALPAC) y comenzó una investigación exhaustiva de dos años. , análisis y pruebas .
En octubre de 1966, el comité emitió un informe llamado "Lenguaje y máquina" (en adelante, el informe ALPAC), que negaba rotundamente la viabilidad de la traducción automática y recomendaba que se apoyara financieramente la traducción automática. se detengan los proyectos. La publicación de este informe asestó un duro golpe a la traducción automática en auge, y la investigación sobre la traducción automática ha llegado a un punto muerto casi estancado. Casualmente, la "Revolución Cultural de los Diez Años" estalló en China durante este período y estos estudios básicamente se detuvieron. La traducción automática ha entrado en un período de declive. (1975-1989)
Después de entrar en la década de 1970, con el desarrollo de la ciencia y la tecnología y el frecuente intercambio de información científica y tecnológica de varios países, la barrera del idioma entre países se hizo más grave y el manual tradicional El método de funcionamiento ha avanzado mucho, lejos de satisfacer la demanda, se necesitan con urgencia ordenadores para realizar trabajos de traducción. Al mismo tiempo, el desarrollo de la investigación en informática y lingüística, especialmente la mejora sustancial de la tecnología del hardware informático y la aplicación de la inteligencia artificial en el procesamiento del lenguaje natural, ha promovido el resurgimiento de la investigación en traducción automática desde un nivel técnico y los proyectos de traducción automática. Han comenzado a desarrollarse nuevamente. Se han lanzado varios sistemas prácticos y experimentales, como el sistema Weinder, el sistema de traducción multilingüe EURPOTRA, el sistema TAUM-METEO, etc.
Sin embargo, después de que China experimentara "diez años de catástrofe", la investigación en traducción automática volvió a estar en la agenda. El proyecto "784" ha prestado suficiente atención a la investigación sobre la traducción automática. Después de mediados de la década de 1980, el desarrollo de la investigación en traducción automática en China se aceleró aún más. Inicialmente, se desarrollaron con éxito dos sistemas de traducción automática inglés-chino, KY-1 y MT/EC863, lo que indica que China ha logrado grandes avances en la tecnología de traducción automática. (1990 al presente)
Con la aplicación generalizada de Internet, la aceleración del proceso de integración económica mundial y los intercambios sociales internacionales cada vez más frecuentes, los métodos tradicionales de operación manual están lejos de satisfacer las crecientes necesidades de traducción. La demanda de traducción automática ha aumentado sin precedentes y la traducción automática ha marcado el comienzo de nuevas oportunidades de desarrollo. Con frecuencia se celebran conferencias internacionales sobre investigación en traducción automática y China ha logrado logros sin precedentes. Ha lanzado sucesivamente una serie de software de traducción automática como Translation Star, Yaxin, Translator y Huajian. Impulsados por la demanda del mercado, los sistemas comerciales de traducción automática han entrado en la etapa práctica, han entrado en el mercado y han llegado a los usuarios.
Desde el nuevo siglo, con la aparición y popularización de Internet, la cantidad de datos ha aumentado considerablemente y los métodos estadísticos se han aplicado plenamente. Las empresas de Internet han establecido uno tras otro grupos de investigación de traducción automática para desarrollar sistemas de traducción automática basados en big data de Internet, a fin de que la traducción automática sea realmente práctica, como "Baidu Translate" y "Google Translate". En los últimos años, con el avance del aprendizaje profundo, la tecnología de traducción automática se ha desarrollado aún más, lo que ha promovido la rápida mejora de la calidad de la traducción y ha hecho que la traducción en áreas como el inglés hablado sea más realista y fluida. El foco de la investigación es la morfología y la sintaxis, representadas por la gramática libre de contexto. La mayoría de los primeros sistemas pertenecen a este tipo.
El sistema gramatical incluye un mecanismo de análisis del texto fuente, un mecanismo de conversión del idioma fuente al idioma de destino y un mecanismo de generación del idioma de destino. La agencia de análisis del texto fuente analiza el texto fuente de entrada, que generalmente se puede dividir en análisis léxico, análisis sintáctico y análisis semántico. A través del análisis anterior, se puede obtener alguna forma de representación interna del texto original. El mecanismo de conversión se utiliza para convertir una representación interna que es relativamente independiente de la expresión superficial del texto de origen en una representación interna que corresponde al idioma de destino. El mecanismo de generación del idioma de destino realiza la conversión de la representación interna del idioma de destino a la estructura superficial del idioma de destino.
La mayoría de los sistemas de traducción automática construidos desde la década de 1960 son de este tipo. Sus características son: (1) Poner el aprendizaje de la sintaxis en primer lugar, primero utilizar marcadores estructurales codificados para expresar la estructura de las oraciones del idioma de origen, luego convertir los marcadores estructurales del idioma de origen en marcadores estructurales del idioma de destino y finalmente formar la salida del idioma de destino. las oraciones del idioma; (2) Las palabras polisémicas deben tratarse de manera especial y se debe seleccionar el significado apropiado según el contexto. No se permite enumerar varias palabras traducidas en un paquete. (3) La gramática y el algoritmo están separados. Bajo ciertas condiciones, la gramática está dentro de los límites de una determinada categoría, de modo que la gramática puede calcularse mediante un algoritmo determinado y describirse en las fórmulas correspondientes mediante el algoritmo dado, de modo que la gramática se pueda convertir sin cambiar el algoritmo. gramáticas para ser escritas y modificadas sin tener en cuenta los algoritmos. El segundo tipo de sistema de traducción automática es mucho mejor que el sistema de traducción automática tipo 1 en términos de calidad de traducción y facilidad de uso. La investigación se centra en introducir información de características semánticas en la traducción automática, representada por la gramática semántica propuesta por Burtop y la gramática de marco de casos propuesta por Charles Fillmore. Varias teorías y métodos de análisis semántico resuelven principalmente el problema de la unificación de forma y lógica. Utilizando las reglas de segmentación semántica del sistema, el texto fuente de entrada se divide en varios metacomponentes semánticos relacionados. Luego, de acuerdo con las reglas de conversión semántica, como la coincidencia de palabras clave, se encuentra la representación semántica interna correspondiente a cada componente del elemento semántico. El sistema prueba la relación entre elementos semánticos, establece la relación lógica entre ellos y forma una representación semántica del texto completo. El proceso de procesamiento se implementa principalmente consultando el diccionario semántico. La representación semántica es generalmente un marco reticular o también puede ser una representación dependiente de conceptos. Finalmente, el sistema de traducción automática interpreta la representación semántica intermedia para formar una traducción correspondiente.
Desde la década de 1970, algunos traductores automáticos han propuesto un tercer tipo de sistema de traducción automática basado en la traducción semántica. La introducción del plano semántico requiere algunos cambios sustanciales en la descripción del lenguaje, porque en un sistema de traducción automática orientado a la sintaxis, la unidad de traducción más pequeña es una palabra y la unidad de traducción más grande es una sola oración. El algoritmo de traducción automática solo considera el procesamiento automático de una oración y no considera la relación entre palabras que pertenecen a diferentes oraciones. El tercer tipo de sistema de traducción automática debe considerar cuestiones más allá del alcance de las oraciones, además de la semántica, las palabras, las frases y las oraciones, también debe estudiar párrafos y capítulos que sean más extensos que las oraciones. Para establecer el tercer tipo de sistema de traducción automática, los lingüistas deben estudiar la semántica en profundidad, los matemáticos deben formular algoritmos para la representación y el procesamiento semánticos, y el diseño del programa también debe considerar las características del procesamiento semántico. El objetivo es utilizar los últimos avances en inteligencia artificial para lograr una selección dinámica multicanal y una reorganización automática de bases de conocimiento, y convertir diferentes oraciones en diferentes planos. De esta manera, la gramática, la semántica y el sentido común pueden conectarse en un todo orgánico, que no sólo hereda las ventajas del sistema tradicional, sino que también realiza la función de crecimiento propio del sistema. Este tipo de sistema está representado por el sistema IMT/EC desarrollado por la Academia de Ciencias de China.