Investigación en profundidad y diversidad sobre modelos de enrutamiento

Este artículo es una investigación de Google Brain sobre la estructura heterogénea y las diferentes profundidades de los modelos de enrutamiento y se incluye en ICLR2019. Algunas opiniones sobre la selección de topk en este artículo tienen un cierto impacto en investigaciones posteriores sobre transformadores de conmutación. Se puede decir que este es un pensamiento intermedio de los grandes de Google Brain sobre la exploración del modelo de enrutamiento.

Título de tesis: "Diversidad y profundidad de los modelos de enrutamiento basados ​​en instancias"

Dirección: Los componentes simplifican el modelado y mejoran la efectividad del modelo.

Se realizaron experimentos de ablación adicionales en diferentes conjuntos de datos y los resultados finales fueron muy generales. Los resultados finales tienen diferentes impactos en diferentes conjuntos de datos y tienen poco que ver con el tamaño de los datos. Los autores concluyen en este artículo que agregar copias de operaciones importantes es una forma directa de mejorar el rendimiento del modelo agregando diferentes operaciones. De hecho, no sé mucho sobre este lugar. Se puede ver que el efecto de usar solo un núcleo de convolución 3 × 3 es muy bueno, y el efecto de una capa experta heterogénea es equivalente, pero la diversidad y personalmente creo que esta conclusión es un poco exagerada.

Profundidad de enrutamiento:

Este artículo brinda el impacto en CIFAR-10. De esta forma, parece que el modelo de enrutamiento es aún peor. Por ejemplo, bajo la configuración de números de celda = 6, filtros números = 64, el efecto del modelo de enrutamiento es equivalente al efecto de todo en C = 6, F = 32, pero la cantidad de cálculo es 2 veces, incluso el modelo de disparo único buscado 3,5 veces. Y cuando c aumenta a 12, el efecto empeora aún más. El autor cree que la optimización de enrutamiento compleja conduce a resultados deficientes. Los métodos de enrutador, como la puerta ruidosa top-k, son empíricos y no pueden aprender soluciones sólidas.

Conclusión:

En términos de heterogeneidad estructural, ¿este experimento ha logrado resultados importantes en el efecto final del modelo? En ese momento, la optimización de la profundidad del enrutamiento aún era incierta.

El autor cree que es necesario que el modelo de enrutamiento abra los puntos débiles del modelo estático. También predice que habrá un trabajo de gran envergadura en el campo de los modelos de enrutamiento (el transformador de conmutación cumplirá las expectativas en dos años) y se muestra optimista en cuanto a la optimización de los modelos de enrutamiento.