Título de tesis: "Diversidad y profundidad de los modelos de enrutamiento basados en instancias"
Dirección: Los componentes simplifican el modelado y mejoran la efectividad del modelo.
Se realizaron experimentos de ablación adicionales en diferentes conjuntos de datos y los resultados finales fueron muy generales. Los resultados finales tienen diferentes impactos en diferentes conjuntos de datos y tienen poco que ver con el tamaño de los datos. Los autores concluyen en este artículo que agregar copias de operaciones importantes es una forma directa de mejorar el rendimiento del modelo agregando diferentes operaciones. De hecho, no sé mucho sobre este lugar. Se puede ver que el efecto de usar solo un núcleo de convolución 3 × 3 es muy bueno, y el efecto de una capa experta heterogénea es equivalente, pero la diversidad y personalmente creo que esta conclusión es un poco exagerada.
Profundidad de enrutamiento:
Este artículo brinda el impacto en CIFAR-10. De esta forma, parece que el modelo de enrutamiento es aún peor. Por ejemplo, bajo la configuración de números de celda = 6, filtros números = 64, el efecto del modelo de enrutamiento es equivalente al efecto de todo en C = 6, F = 32, pero la cantidad de cálculo es 2 veces, incluso el modelo de disparo único buscado 3,5 veces. Y cuando c aumenta a 12, el efecto empeora aún más. El autor cree que la optimización de enrutamiento compleja conduce a resultados deficientes. Los métodos de enrutador, como la puerta ruidosa top-k, son empíricos y no pueden aprender soluciones sólidas.
Conclusión:
En términos de heterogeneidad estructural, ¿este experimento ha logrado resultados importantes en el efecto final del modelo? En ese momento, la optimización de la profundidad del enrutamiento aún era incierta.
El autor cree que es necesario que el modelo de enrutamiento abra los puntos débiles del modelo estático. También predice que habrá un trabajo de gran envergadura en el campo de los modelos de enrutamiento (el transformador de conmutación cumplirá las expectativas en dos años) y se muestra optimista en cuanto a la optimización de los modelos de enrutamiento.