Notas de lectura en papel

Notas de lectura: codificador y red neuronal recurrente basada en celosía

Para traducción automática neuronal (Su Jinsong et al.)

Introducción abstracta:

Traducción automática neuronal NMT Se basa en gran medida en el modelado a nivel de palabras para aprender representaciones semánticas de oraciones de entrada.

Para procesar idiomas que no tienen delimitadores de lenguaje natural (como el chino), es necesario marcarlos primero, y esto surge.

Dos problemas: 1) Para el modelo de oración fuente, es muy difícil encontrar la granularidad de etiqueta óptima. La granularidad gruesa conduce a datos escasos, mientras que la granularidad fina conduce a la pérdida de información útil. 2) Es fácil cometer errores cuando es difícil, y los errores se enviarán al codificador NMT, lo que afectará la representación de la oración fuente.

En base a estos dos problemas, para modelar mejor la oración fuente, es necesario proporcionar a NMT varias etiquetas en lugar de una sola secuencia de etiquetas.

Este artículo propone un codificador NMT de red neuronal recursiva basado en celosía: 1), que toma la codificación de compresión de múltiples celosías de logotipos como entrada, 2) y aprende el número de entradas de cualquiera de los pasos de tiempo anteriores; y los estados ocultos generan nuevos estados ocultos.

Una celosía es una representación comprimida de muchos tokens, y un codificador basado en celosía no solo reduce el error de tokenización del mejor modo de tokenización (1-mejor)

Error de tokenización), pero también incrustar oraciones de entrada es más expresivo y flexible.

?

Características de NMT:

La traducción automática estadística tradicional simula la estructura subyacente y la correspondencia entre el idioma de origen y el idioma de destino en el proceso.

NMT entrena un sistema unificado. Una red neuronal codificador-decodificador, donde el codificador asigna oraciones de entrada a vectores de longitud fija y el decodificador genera traducciones a partir de los vectores codificados.

Red neuronal recurrente NMT basada en celosía de palabras:

Este artículo estudia y compara dos codificadores RNN basados ​​en celosía de palabras:

1). : basado en una combinación de entradas y estados ocultos de múltiples etiquetas utilizando la arquitectura GRU estándar;

2) Codificador GRU de celosía profunda: aprende y actualiza puertas, entradas y estados ocultos Tokenización específica para el estado.

Vector), y luego generar el vector de estado oculto de la unidad actual.

En ambos codificadores, se pueden usar muchos tokens diferentes simultáneamente para simular una oración de entrada.

Conclusión:

En comparación con los codificadores RNN estándar, nuestro codificador utiliza estados ocultos previos y de entrada y se basa en múltiples etiquetas para modelar la oración fuente. Por lo tanto, no solo reducen la tokenización óptima.

Propaga errores y es más expresivo y flexible que los codificadores estándar.

Los resultados experimentales de la traducción chino-inglés muestran que el codificador de este artículo tiene mejoras significativas en varias líneas de base.

Perspectiva:

La estructura de red de este artículo depende del caso de las palabras de la oración fuente. Amplíe el modelo e integre el modelo de segmentación en el aprendizaje de representación de oraciones fuente. De esta manera, el simbolismo y la traducción pueden trabajar juntos. Además, se adoptan mejores estrategias de combinación para mejorar el codificador.

Experimento de verificación:

Para verificar la efectividad del codificador, realizamos experimentos en la tarea de traducción chino-inglés.

Los resultados experimentales muestran que:

(1) Es muy necesario utilizar la información de los límites de las palabras para aprender oraciones chinas incrustadas con precisión.

(2) El codificador RNN basado en celosía es mejor que el codificador RNN estándar de NMT. Hasta donde sabemos, este es el primer intento de construir NMT en redes de palabras.

Parte experimental:

1. Grupo de datos

Evaluación del codificador propuesto en la tarea de traducción chino-inglés del NIST;

Datos de entrenamiento conjunto: 6,5438 millones de pares de oraciones extraídas de LDC2002E18, LDC2003E07, LDC2003E14, LDC2004T07 y LDC2005T06, incluidas 27,9 millones de palabras chinas y 34,5 millones de palabras en inglés.

Conjunto de datos de validación: conjunto de datos NIST 2005

Conjunto de datos de prueba: conjuntos de datos NIST 2002, 2003, 2004, 2006 y 2008.

Utilizamos el kit de herramientas2 publicado por la Universidad de Stanford para entrenar segmentadores de palabras en corpus CTB, la Universidad de Pekín y MSR para obtener patrones de oraciones en chino.

Para entrenar eficazmente la red neuronal, utilizamos como vocabulario las 50.000 palabras más utilizadas en chino e inglés. En los corpus CTB, Universidad de Pekín, MSR y Gezi, las palabras chinas representaron 98,5, 98,6, 99,3 y 97,3 respectivamente, y las palabras en inglés representaron 99,7.

2. Resultados experimentales:

Cobertura de caracteres:

Calidad de traducción:

Experimento de decodificación NMT utilizando la segmentación de la mejor palabra:

Modelo:

Word Lattice

El modelo Lattice es completamente independiente de la segmentación de palabras, pero es más efectivo cuando se utiliza información de palabras porque se puede seleccionar libremente en contexto. palabras para eliminar la ambigüedad.

Dos codificadores RNN basados ​​en celosía de palabras

Método de reconocimiento de entidades nombradas basado en BLSTM (Feng et al.)

Introducción abstracta:

(1) El corpus de aprendizaje supervisado es insuficiente; (2) RNN no puede manejar bien los problemas de dependencia de larga distancia y el algoritmo de entrenamiento tiene problemas con la desaparición o explosión de gradientes.

Basado en tres consideraciones: (1) Si el texto es reconocido como una entidad nombrada está relacionado con su contexto, y también con cada palabra y orden de palabras que constituyen la entidad nombrada (2) Considerando la entidad nombrada; relación entre etiquetas en la secuencia de anotaciones Relevancia, limitar la función de costo del modelo propuesto en este artículo, extraer información valiosa tanto como sea posible en datos de entrenamiento pequeños y mejorar el efecto del reconocimiento de entidades nombradas (3) Características artificiales y conocimiento del dominio; En los métodos de reconocimiento tradicionales, el efecto de reconocimiento tiene un impacto negativo en las entidades nombradas, pero el diseño de características artificiales y la adquisición de conocimiento del dominio son costosos.

Por lo tanto, este artículo propone un método eficaz para utilizar modelos de redes neuronales para resolver el problema del reconocimiento de entidades nombradas. Este método no depende directamente de características artificiales ni recursos externos, sino que solo utiliza una pequeña cantidad de datos supervisados, conocimiento del dominio y una gran cantidad de datos sin etiquetar, resolviendo el problema de la dependencia excesiva de los métodos actuales de aprendizaje automático en características artificiales y conocimiento del dominio. y corpus insuficiente. El método de reconocimiento de entidades nombradas propuesto en este artículo integra la información de contexto de la palabra, la información de prefijo y sufijo de la palabra y el diccionario de dominio, y caracteriza esta información como las características de representación de distribución de la palabra. Teniendo en cuenta las relaciones de restricción entre etiquetas de palabras, el efecto de reconocimiento mejora aún más.

Perspectiva: este artículo solo lee datos secuencialmente para identificar entidades nombradas. El impacto de cada palabra en las entidades nombradas es el mismo y no se consideran los diferentes impactos de diferentes palabras en las entidades nombradas. Cómo introducir el mecanismo de atención del aprendizaje profundo en este modelo y centrar la atención en palabras que tienen un impacto importante en el reconocimiento de entidades nombradas es un problema que debe resolverse más.

Parte experimental:

Conjuntos de datos:

DataSet1 (corpus no etiquetado a gran escala), DataSet2 (corpus etiquetado), DataSet3 (corpus etiquetado de reconocimiento de entidades nombradas).

DataSet4 (este artículo elimina las etiquetas en DataSet2 y DataSet3, las divide en datos de secuencia de caracteres y obtiene un conjunto de datos).

DataSet5 (Seleccione parte de los datos del diccionario de métodos de entrada de Sogou [incluidos nombres comunes de China, agencias y organizaciones chinas y nacionales, divididos en datos de secuencia de caracteres].

Clasificación de muestra :TP? FP? TN? [Matemáticas] Función

Índice de evaluación: precisión (p), recuperación (r), puntuación f (f), sensibilidad, especificidad, 1-especificidad (1GSpec), Precisión (0GSpec).

Resultados experimentales:

Factores que influyen en el experimento:

La longitud de dos entidades nombradas, nombres de lugares y nombres de organizaciones, suele ser más larga que los nombres de las personas, y sus La composición es compleja.

Los vectores de palabras basados ​​en contexto y los vectores de palabras entrenados por el modelo BLSTM_Ec tienen un impacto positivo en el efecto de reconocimiento.

La longitud de la palabra del nombre es corta, no existe una relación vinculante fuerte entre el apellido de la persona y el nombre de pila, y no existe una correlación fuerte entre el nombre en el diccionario de nombres y la entidad del nombre en el texto a reconocer. Por lo tanto, la información de prefijo y sufijo, la información de restricción de etiqueta y el conocimiento del dominio tienen un cierto impacto en la entidad de nombre, pero el impacto no es significativo.

Modelo:

Donde Ec es un vector a nivel de carácter; Ew es un vector de palabras basado en palabras de contexto.

Notas de lectura: investigación intelectual sobre chino automatizado

Segmentación de palabras para la comprensión del lenguaje hablado y entidades nombradas

Re-reconocimiento (Luo et al.)

Antecedentes: En el texto en inglés, una oración es una secuencia de palabras separadas por espacios. Las oraciones chinas son cadenas sin delimitadores naturales (otros idiomas similares: árabe, japonés). El primer paso en la tarea de procesamiento chino es identificar el orden de las palabras en la oración y marcar los límites en los lugares apropiados. La segmentación de palabras en el texto chino puede eliminar la ambigüedad hasta cierto punto. La segmentación de palabras se considera a menudo como el primer paso en muchas tareas de procesamiento del lenguaje natural chino, pero su impacto en estas tareas posteriores está relativamente menos estudiado.

Introducción abstracta:

El principal problema actual es que al aplicar delimitadores de palabras existentes a datos nuevos, habrá 1) discrepancias 2) si un mejor tokenizador puede producir un mejor rendimiento; en tareas posteriores de PNL.

En respuesta a los problemas anteriores, este artículo propone tres métodos: 1) Usar la salida de segmentación de palabras como una característica adicional en tareas posteriores es más resistente a la propagación de errores que usar unidades de segmentación de palabras. 2) Utilice algunos datos de etiquetas obtenidos de los datos de entrenamiento de tareas posteriores para mejorar la segmentación de palabras existente y mejorar aún más el rendimiento de un extremo a otro. 3) Utilice la n-mejor tabla de resultados de segmentación de palabras para hacer que las tareas posteriores sean menos sensibles a los errores de segmentación de palabras.

Las principales tareas de la segmentación de palabras chinas son: 1) Identificar el orden de las palabras en la oración. 2) Marque los límites en los lugares apropiados.

Resumen:

Este artículo propone tres métodos: utilizar la salida de segmentación de palabras como características adicionales; realizar una adaptación del aprendizaje local y utilizar tablas de n mejores;

Además, también se estudió el impacto de CWS en tres situaciones diferentes: 1) Cuando los datos del dominio no tienen información de límites de palabras, un segmentador de palabras construido utilizando datos fuera del dominio público puede mejorar el extremo a extremo. -Fin del rendimiento. Ajustarlo utilizando algunos datos de etiquetas derivados de la anotación manual puede mejorar aún más el rendimiento. 2) Marginar la segmentación n-mejor traerá mejoras adicionales. Cuando la segmentación de dominio está disponible, los tokenizadores entrenados utilizando los propios datos del dominio tienen un mejor rendimiento de CWS, pero no necesariamente tienen un mejor rendimiento de las tareas de un extremo a otro. Un tokenizador que esté más equilibrado en cuanto a datos de entrenamiento y prueba puede lograr un mejor rendimiento de un extremo a otro. 3) Al dividir manualmente los datos de la prueba, la segmentación de palabras es realmente útil para la tarea, y la segmentación de palabras puede reducir la ambigüedad de las tareas posteriores de PNL.

Posibles direcciones futuras: apilar dos capas de CRF en secuencia, una para la segmentación de palabras y otra para tareas posteriores. Además del etiquetado de secuencias, se analizan otras tareas de seguimiento.

Experimento (parte NER):

Para los datos NER utilizados, tanto el entrenamiento del dominio como los datos de prueba tienen información de límites de palabras. Este artículo analiza la diferencia entre la tokenización entrenada con datos de dominio y datos disponibles públicamente (el segundo caso). La relación entre las puntuaciones de segmentación de palabras y las tareas posteriores de un extremo a otro.

Datos experimentales: Datos NER de referencia de Bakeoff (SIGHAN-3) procesados ​​en la tercera generación de SIGHAN chino.

(Levow, 2006). Datos del conjunto de entrenamiento: 46364 oraciones, datos del conjunto de prueba: 4365 oraciones. Los datos están etiquetados con límites de palabras e información NER.

Resultados experimentales: