Notas en papel|Extracción de eventos a través de DMCNN

Este artículo vuelve a contar principalmente el contenido principal del artículo [Extracción de eventos a través de una red neuronal convolucional dinámica de múltiples grupos] para su autoevaluación, con la esperanza de ayudar a Otani ~

El método tradicional de extracción de eventos ACE se basa principalmente en Well- funciones diseñadas y sofisticadas herramientas de PNL. Estos métodos tradicionales carecen de versatilidad, requieren mucha mano de obra y son propensos a problemas de propagación de errores y escasez de datos. Este artículo propone un nuevo método de extracción de eventos que tiene como objetivo extraer automáticamente funciones a nivel de vocabulario y de oración sin utilizar herramientas complejas de procesamiento del lenguaje natural. Introducimos un modelo de representación de palabras para la descripción semántica del lenguaje y adoptamos un marco basado en una red neuronal convolucional (CNN) para capturar señales a nivel de oración. Si bien CNN solo puede capturar la información más importante de una oración, es posible que se pasen por alto datos valiosos al considerar oraciones de múltiples eventos. Proponemos una red neuronal convolucional dinámica de agrupación múltiple (DMCNN), que utiliza capas dinámicas de agrupación múltiple para retener más información clave en función de los desencadenantes y parámetros de eventos.

Los métodos actuales de extracción de eventos de última generación emplean un conjunto de características cuidadosamente diseñadas extraídas del análisis de texto y el conocimiento del idioma. Generalmente se divide en dos categorías: características léxicas y características contextuales.

-Características léxicas

Las características léxicas incluyen etiquetas de partes del discurso, información de entidades, características morfológicas (como etiquetas, entradas, etc.), con el objetivo de capturar la semántica o el conocimiento previo. de palabras. Debido a las limitaciones de estas señales para predecir el contexto semántico y la escasez de datos causada por la codificación one-hot, la semántica de las palabras no se puede capturar por completo.

-Características contextuales

Las características contextuales, como las características gramaticales, pueden obtener la relación entre sus parámetros y palabras desencadenantes a partir de la relación de dependencia. A esta información la llamamos señales a nivel de oración. Sin embargo, no podemos obtener el rol objetivo a través de esta dependencia de características tradicional y, además, puede provocar una propagación de errores en el aprendizaje de características.

-Red neuronal convolucional

Se ha demostrado que las redes neuronales convolucionales (CNN) recientemente mejoradas descritas en el artículo capturan de manera efectiva la sintaxis y la semántica entre palabras en oraciones. Las CNN suelen utilizar capas de agrupación máxima que aplican operaciones máximas a la representación de la oración completa para capturar la información más útil. Pero en la extracción de eventos, una oración puede contener dos o más eventos, y estos eventos pueden disfrutar de diferentes roles de parámetros. Por ejemplo, S3 (S3: ¿En Bagdad, un fotógrafo murió en un tanque estadounidense? Hay dos acontecimientos rojos en el hotel palestino), es decir, la muerte y el ataque. Si utilizamos la capa de agregación máxima tradicional y mantenemos solo la información más importante, entonces podemos obtener la información que describe la "muerte del camarógrafo", pero nos perdemos la información sobre el "tanque estadounidense", que es muy importante para predecir eventos de ataque, valiosa para colocando a los operadores de cámara en rojo. como argumento objetivo. En experimentos descubrimos que este tipo de oraciones de eventos múltiples representan el 27,3% de nuestro conjunto de datos y este fenómeno no se puede notificar.

Sistema de extracción de eventos: Para cada frase, se utilizan subtipos específicos y sus parámetros para predecir los desencadenantes de eventos.

La implementación de este artículo se divide en dos etapas: 1. Clasificación de desencadenantes. Utilice DMCNN para clasificar cada palabra de la oración para identificar palabras desencadenantes. 2. Si una oración tiene un disparador, realice la segunda etapa y aplique un DMCNN similar para asignar parámetros al disparador y alinear las funciones de los parámetros.

1. Incrustación de Word

Este artículo propone tres tipos de entrada.

- Funciones contextuales de palabras (CWF): un vector de cada etiqueta de palabra transformado mediante la búsqueda de incrustaciones de palabras.

-Característica posicional (PF): Indica la distancia relativa entre la palabra actual y el disparador predicho o los parámetros candidatos. Cada valor de distancia de la característica de ubicación también está representado por un vector de incrustación, y los valores de distancia se inicializan y optimizan aleatoriamente mediante retropropagación.

-Características de tipo de evento (EF): la codificación de tipo de evento se utiliza para activar predicciones en la etapa de clasificación, lo cual es una pista importante en DMCNN o PF.

Establezca la dimensión de CWF d=4, PF de d=1, EF=1, la longitud del vector de características de palabra empalmado por CWF es d=dw dp×2 de, y la entrada matriz X∈R (n×d), ingresa a la capa convolucional.

Establezca h ventanas de palabras, filtre w ∈ R(h×d) y genere nuevas características ci mediante la operación (4), donde b∈R es el término de sesgo y f es la función no lineal, como Tangente hiperbólica. Este filtro se aplica a las oraciones x1:h, x2:h1,...,x(n-h1):n para generar un mapa de características ci, donde el índice I varía de 1 a n-h1.

3. Salida

5. ¿Clase de activación? Modelo catiónico

En la clasificación de activadores, solo se utilizan activadores candidatos y sus etiquetas izquierda y derecha para la representación de características léxicas. En la representación de características a nivel de oración, usamos el mismo CWF que en la clasificación de parámetros, pero solo usamos las posiciones de los activadores candidatos para incrustar características posicionales. Además, en lugar de dividir la oración en tres partes, la oración se divide en dos partes mediante desencadenantes candidatos. Además de las características y cambios de modelo anteriores, este artículo también clasifica un argumento. Estas dos etapas constituyen el marco de extracción de eventos.

Criterios para juzgar la precisión de los eventos predichos:

1. Un disparador es correcto si su subtipo de evento y su compensación coinciden con el tipo del disparador de referencia.

2. Un parámetro se identifica correctamente si su subtipo de evento y su offset coinciden con los mencionados en algún parámetro de referencia.

3. Un parámetro se clasifica correctamente si su subtipo de evento, desplazamiento y función de parámetro coinciden con los mencionados en cualquier parámetro al que se hace referencia.