Mecanismo de atención en la traducción automática de redes neuronales

La atención es la interfaz entre el codificador y el decodificador, proporcionando al decodificador la información de estado oculta de cada codificador. Con esta configuración, el modelo puede centrarse selectivamente en partes útiles de la secuencia de entrada y así aprender la alineación entre ellas. Esto ayuda al modelo a manejar eficientemente oraciones largas de entrada.

La atención es un mecanismo o metodología y no tiene una definición matemática estricta. Por ejemplo, los métodos tradicionales de extracción de características de imágenes locales, detección de prominencia y ventanas deslizantes pueden considerarse como un mecanismo de atención. En las redes neuronales, un módulo de atención suele ser una red neuronal adicional que puede seleccionar de forma estricta ciertas partes de la entrada o asignar diferentes pesos a diferentes partes de la entrada.

Agrega un módulo de atención de canal para conocer el peso de cada canal y mejora el rendimiento de representación de características convolucionales al suprimir características irrelevantes. SENet logra las funciones anteriores a través del módulo de extrusión y el módulo de excitación. Primero, las características convolucionales se comprimen a través del módulo Squeeze, es decir, se realiza una operación de agrupación global en la dimensión del canal y se utiliza la agrupación promedio global en SENet.

Nota:

Esta operación puede hacer que las entidades cercanas a la entrada de datos tengan un campo receptivo global, lo cual es muy útil en muchas tareas. Luego, la operación de resección se realiza a través de la red completamente conectada.

El propósito de las operaciones de reducción de dimensionalidad en redes totalmente conectadas es reducir la cantidad de cálculos de red por un lado y aumentar las capacidades no lineales de la red por el otro. Finalmente, la atención del canal obtenida se aplica a las características convolucionales originales, es decir, se multiplica con las características anteriores mediante multiplicación y ponderación, mejorando así las características importantes y suprimiendo las características sin importancia.