La extracción de conocimientos puede verse como la red de profesores que transfiere conocimientos a la red de estudiantes proporcionando etiquetas suaves, lo que puede verse como un método de suavizado de etiquetas más avanzado. En comparación con las etiquetas duras, las etiquetas suaves tienen las siguientes ventajas:
Entonces, ¿cuál es el papel de la sublimación del conocimiento en la búsqueda de estructuras de red? El resumen es el siguiente:
La extracción de conocimientos se utiliza como habilidad de capacitación en muchos trabajos, como el uso de la estrategia de capacitación de contracción progresiva en OFA, el uso de la red más grande para guiar el aprendizaje de redes pequeñas y el uso de Extracción in situ para refinación. En BigNAS, utilizando la regla del sándwich, la red más grande guía el refinamiento de las redes restantes.
Propósito: Resolver el problema de coincidencia entre la red de profesores y la red de estudiantes (el efecto es mejor cuando la red de profesores y la red de estudiantes coinciden en la sublimación del conocimiento).
En la sublimación del conocimiento, cuando se seleccionan diferentes redes de profesores y diferentes redes de estudiantes, el rendimiento de la red final de estudiantes varía ampliamente. Si la diferencia de capacidad entre la red de estudiantes y la red de profesores es demasiado grande, causará dificultades de aprendizaje a los estudiantes. Este artículo de crema es para solucionar el problema de combinar las dos.
Como se muestra en la figura de la izquierda, el método SPOS comúnmente utilizado se entrena muestreando una subred de ruta única. Combinando el método de extracción de conocimiento de la derecha, Cream propone dos módulos:
La idea central de Cream es que las subredes puedan aprender cooperativamente y enseñarse entre sí durante todo el proceso de formación, con el propósito de mejorar. la convergencia de un modelo único.
El experimento de ablación es el siguiente:
Propósito: el maestro guía el aprendizaje de cada capa de entidades y juzga el rendimiento de cada subred en función de la pérdida.
Este es un trabajo muy profundo que integra NAS y KD, que fue aceptado por CVPR20. He escrito un artículo antes para explicarlo, así que aquí hay una breve reseña.
El ADN es un método NAS de una etapa y dos etapas, por lo que también se introduce la destilación para reemplazar el índice acc común. Se recomienda utilizar la proximidad entre una subred y la red de profesores como medida del rendimiento de la subred.
Durante el proceso de capacitación, se realiza la destilación de bloques. La entrada de una determinada capa de la red de estudiantes proviene de la salida de la red de maestros de la capa superior, y la salida de esta capa de la red de estudiantes se ve obligada a hacerlo. ser coherente con el resultado de la red de profesores (utilizando MSELoss). Luego del proceso de búsqueda, las subredes se miden calculando la proximidad entre cada subred y la red de docentes.
Propósito: Evitar que los estudiantes sobreestimen o subestimen la red de docentes mejorando la divergencia de KL.
La figura anterior es un método de destilación comúnmente utilizado en algoritmos de búsqueda como OFA y BigNAS. La subred se mide mediante la divergencia KL. Este artículo analiza las limitaciones de la divergencia KL: evitación cero y forzamiento cero. Como se muestra en la siguiente fórmula, P es la salida lógica del profesor y Q es la salida lógica del estudiante.
AlphaNet propone una nueva función de pérdida de divergencia para evitar la sobreestimación o subestimación. Como se muestra a continuación, introducción.
Que no es 0 ni 1, como se muestra en la siguiente figura:
La línea azul corresponde al ejemplo 2. Cuando es negativo, el valor de será mayor si Q sobreestima la incertidumbre en P.
La línea violeta corresponde al ejemplo 1, lo que significa que cuando es un número positivo, si Q subestima la incertidumbre en P, entonces el valor de será mayor.
Considere dos situaciones al mismo tiempo y tome el valor máximo como divergencia:
Propósito: Proponer una métrica para medir la similitud de activaciones dentro de la red de estudiantes y la red de profesores. , al caracterizar la coincidencia Acelerar las búsquedas de estructuras de red.
Esta parte en realidad pertenece al conocimiento basado en relaciones en la clasificación de extracción de conocimiento. El conocimiento construido se compone de la interacción entre diferentes muestras.
Como se muestra en la figura anterior, la estructura del índice específico es una matriz de tamaño bsxbs, que en este artículo se denomina matriz de disimilitud representativa.
Su función es construir la representación dentro de la capa de activación. Al evaluar la similitud de RDM, se puede calcular el coeficiente de relación de la matriz triangular superior, como el coeficiente de Pearson.
De hecho, este artículo también construye un indicador P TG para medir el rendimiento de la subred y seleccionar la mejor subred.
Como se muestra en la figura anterior, el cálculo de RDM consiste en medir la similitud entre las características de la red de profesores y las características de la red de estudiantes, y seleccionar el RDM con la mayor similitud. Al crear un conjunto de métricas, la coherencia de las clasificaciones puede mejorar rápidamente con el tiempo.
Objetivo: Determinar la red de profesores y encontrar la red de estudiantes más adecuada.
Para la misma red de profesores, las redes de estudiantes con diferentes estructuras tienen diferentes capacidades de generalización incluso si tienen los mismos fracasos o parámetros. Este trabajo selecciona una red fija de profesores y encuentra la red óptima de estudiantes mediante la búsqueda de redes. Sobre la base de la optimización de la norma L1, se selecciona la red de estudiantes con la menor diferencia de divergencia KL con respecto a la red de profesores.
Propósito: Dada una red de profesores, encontrar la red de estudiantes más adecuada.
El conocimiento en las redes neuronales no sólo está contenido en los parámetros, sino que también se ve afectado por la estructura de la red. El método general de KD es extraer el conocimiento de la red del profesor a la red del estudiante. Este artículo propone un método de extracción de conocimiento consciente de la arquitectura: el método de extracción de conocimiento consciente de la arquitectura (AKD), que puede encontrar la red de estudiantes más adecuada y extraerla en un modelo de maestro específico.
Motivación: Primero, hicimos una serie de experimentos y descubrimos que diferentes redes de profesores tienden a ser diferentes redes de estudiantes. Por lo tanto, en NAS, el uso de diferentes redes de profesores hará que el modelo elija diferentes estructuras de red.
El método de AKD consiste en elegir el aprendizaje por refuerzo para guiar el proceso de búsqueda y utilizar el método de muestreo ENAS a través de RNN.
Objetivo: aprender de la red integrada de profesores y utilizar NAS para ajustar la capacidad del modelo de red de estudiantes. Integración NAS KD.
Este artículo también ha explicado antes que se trata de una mezcolanza de búsqueda de estructuras de red, extracción de conocimientos e integración de modelos.
Para más detalles, consulte: /DD_PP_jj/article/details/121268840.
Este artículo es bastante interesante. Al integrar múltiples subredes obtenidas en el paso anterior, se puede obtener la red de maestros y luego se utiliza el método de sublimación de conocimiento para guiar el aprendizaje de la nueva subred. Centrarse en:
Inspirado en Born Again Network (BAN), AdaNAS propone el método de Dispersión Adaptativa del Conocimiento (AKD) para ayudar en la capacitación de subredes.
Selección de modelo integrada:
De izquierda a derecha representa cuatro iteraciones, cada iteración selecciona tres modelos del espacio de búsqueda. El modelo que se muestra en la estructura alámbrica verde representa el modelo óptimo en cada iteración, y AdaNAS selecciona la subred óptima en cada iteración como objeto de integración.
Se agregaron parámetros de peso adicionales w1-w4 en la integración final:
La capa lógica de salida final es la siguiente: (Este peso W también se entrenará. En este momento, cada red integrada El peso es fijo, solo se optimiza W)
Destilación de conocimientos
Propósito: resolver la eficiencia y efectividad de la sublimación de conocimientos y utilizar la agregación de funciones para guiar el aprendizaje de las redes de docentes. y redes de estudiantes. La búsqueda de la estructura de la red se refleja en el proceso de agregación de características, utilizando un método de estilo dardo para ajustar de forma adaptativa el coeficiente de escala. ECCV20
Este artículo resume varios ejemplos de destilación:
El último es el método propuesto en este artículo. La extracción de características ordinaria es la extracción mutua del último mapa de características de cada bloque. Este artículo considera que bloques holísticos de redes de docentes pueden guiar las redes de estudiantes.
Específicamente, cómo agregar todos los mapas de características en todo el bloque de red de maestros, este artículo utiliza el método de dardos para agregar información dinámicamente. (a) La figura muestra el proceso de búsqueda diferenciable para el grupo I. (b) Construcción utilizando la pérdida CE para representar la pérdida del camino de maestro a estudiante. (c) Utilice la pérdida L2 para representar la construcción de la pérdida de ruta desde la red de estudiantes a maestros. El conector es en realidad una capa convolucional 1x1.
(ps: El conector recuerda al VID)