Red Paper Reading-D2: una CNN entrenable para la descripción y detección conjunta de características locales.

Como otro representante de los artículos de aprendizaje conjunto de detectores y descriptores (también llamados de una etapa) en los últimos dos años, D2 net es una estructura bastante especial. Su característica es "una imagen para dos propósitos", es decir, el tensor denso predicho por la red es tanto un mapa de puntuación de detección como un mapa de características del mapa de descripción, que representa tanto los resultados de detección de características como los resultados de descripción de características (tenga en cuenta que los resultados predichos El mapa de características no es la imagen original) resolución). En otras palabras, el módulo de detección de características y el módulo de descripción de D2 net están altamente acoplados.

Este artículo se centra principalmente en tareas de coincidencia de imágenes en escenas con grandes cambios de apariencia (incluidos cambios de día y de noche, grandes cambios de ángulo de visión, etc.). ). El autor comparó dos métodos de aprendizaje de características locales: método disperso y método denso. El método disperso es muy eficiente, pero no puede extraer puntos clave repetibles en escenas con grandes cambios de apariencia, porque el extractor de características solo usa información de imagen superficial y no usa información semántica. El método denso usa directamente características profundas para extraer descripciones de características densas. que es más robusto a costa de un mayor tiempo de coincidencia y sobrecarga de memoria.

Por lo tanto, el propósito del autor es proponer una característica local dispersa que sea lo suficientemente robusta como para hacer que las características extraídas (puntos de interés) sean más repetibles, logrando así la eficiencia de los métodos dispersos y las ventajas de los métodos densos al mismo tiempo. mismo tiempo. La idea central es posponer la etapa de extracción de características para que las características locales también puedan utilizar información semántica de alto nivel en lugar de considerar únicamente información de bajo nivel.

Pregunta: Con respecto a los métodos dispersos y densos aquí.

Palabras clave: una sola CNN desempeña una doble función; optimización conjunta; diferentes estructuras de modelo de entrenamiento/prueba

A diferencia de SuperPoint o SEKD, aunque este artículo también tiene una estructura predictiva densa, la tiene. no predice kpt y descripción al mismo tiempo, solo predice un mapa de características con una forma de HxWxd (d es la longitud de la descripción de la característica), y luego genera los resultados de descripción y detección al mismo tiempo... Desde el dimensión espacial, cada píxel del mapa de características La posición es un descriptor de la dimensión del canal, cada canal representa el resultado de la detección de un detector de características y se obtiene un total de mapas de respuesta D 2D, que se pueden comparar con la diferencia gaussiana; respuesta piramidal en SIFT.

La extracción posterior de puntos de interés requiere un posprocesamiento adicional del mapa de características de este canal D:

De acuerdo con la definición anterior del mapa de características D2, si (I, j) la posición es el punto de detección de interés, entonces el resultado final de la detección de la posición del píxel debe ser el valor correspondiente al canal con el valor de respuesta del detector más grande en la dimensión del canal, seleccionando así el canal en términos de la dimensión espacial, el mapa 2D; la posición en el canal debe ser el máximo local. Esta es la "detección de características difíciles" en este artículo:

Primero cree una pirámide de imágenes para la imagen de entrada y luego avance en cada escala para obtener el mapa de características D2. Luego, los mapas de características de múltiples escalas se amplían y fusionan a la misma resolución (consulte la siguiente fórmula) para obtener el mapa de características fusionado. En la etapa de predicción, los puntos característicos se pueden extraer mediante el posprocesamiento anterior basado en el mapa de características fusionado.

Debido a las características anteriores, la estructura de la red en sí es muy simple. Los pesos de entrenamiento previo en ImageNet se restauran directamente con la parte anterior a VGG16 conv4_3 y luego, excepto la última capa conv4_3, todo lo demás se congela y solo se ajusta esta capa. Pero hay dos cosas que vale la pena señalar sobre el modelo:

1. Los resultados del uso de VGG16 son mucho mejores que los de ReseNet.

2. La estructura del modelo durante el entrenamiento y las pruebas es diferente.

Específicamente, en la fase de prueba, para mejorar la resolución de las funciones, el grupo3 se cambió a un grupo promedio con un lapso de 1, y la relación de expansión de conversión de tres capas posterior se ajustó a 2 para mantener el mismo sentimiento salvaje. La explicación del autor es que para reducir la resolución de las características pequeñas utilizadas en la memoria durante el entrenamiento y mejorar la capacidad de localización de características durante la prueba, la resolución se aumentó a 1/4 de la imagen original y se creó una característica local similar a la utilizada en Se agregó SIFT. Extraiga y luego muestre la interpolación de características a la resolución original.

Sin embargo, la detección de características físicas anterior no se puede utilizar en el proceso de capacitación porque no es diferenciable.

Por lo tanto, el autor propone una versión de soft, cuya idea de diseño es imitar la selección de canal y la selección de posición espacial (es decir, el máximo local en el canal) en el método hard:

Para la selección de posición espacial, el autor encontrará un α (i, j) para cada píxel del mapa de características y obtendrá un mapa α (forma [h, w, d]):

donde N (i, j) es representado por (I, j) es el 9-vecindario centrado. Por lo tanto, se puede ver que el máximo local aquí es en realidad el valor máximo del área 3x3, en lugar de que todo el canal genere solo un valor máximo como está escrito en la fórmula (3).

Para la selección de canales, calcule directamente una relación máxima para obtener un mapa β (la forma es [h, w, d]):

De acuerdo con la definición de kpt, el mapa de puntuación s debe ser el resultado de maximizar el gráfico de producto del gráfico alfa y el gráfico beta en la dimensión del canal. Finalmente, haga una normalización: (Pregunta: ¿Qué significa esta normalización? ¿La suma de los valores de píxeles del mapa de puntuación es 1? No utilice sigmoide para el mapa de puntuación, etc. ¿Es razonable convertirlo en una distribución? ¿entre 0-1?)

Hay otra cuestión a considerar en esta parte. ¿Por qué D2 net necesita extraer puntos de interés durante el entrenamiento? (Por ejemplo, estructuras como R2D2 se optimizan directamente para el mapa de puntuación kpt. La predicción real solo requiere el paso de extraer puntos característicos según el mapa de puntuación).

Respuesta: La comprensión de esta pregunta es incorrecta . Durante el entrenamiento, en lugar de extraer puntos de interés, obtenemos un "mapa de puntuación de un solo juego". La detección de características físicas anterior es equivalente al proceso NMS, y la salida es la coordenada de posición dispersa del punto de interés, mientras que el módulo de detección de entrenamiento requiere el mapa de puntuación hxw, por lo que el mapa de características hxwxd debe procesarse mediante un paso diferenciable para obtenerlo; el mapa de puntuación.

①Pérdida de clasificación marginal triple (solo considere descriptores)

De hecho, no hay mucha diferencia en el entrenamiento de descriptores, es decir, según la correspondencia entre los pares de entrada, cada par coincidente C se considera un par positivo, el par incorrecto se considera un par negativo y se entrenan triples. El principal problema es cómo construir el par negativo de C más significativo basándose en el par coincidente actual. Aquí, el autor utiliza una estrategia de extracción de muestras difícil basada en el vecindario. Si la coincidencia actual es el punto A y el punto B en la figura siguiente, busque pares negativos en el área de I1 e I2 menos la vecindad de A \ B y compárelos con el descriptor dB de B y dA. de A respectivamente. En todos estos pares negativos, encuentre el que tenga la menor similitud y forme un triplete con c.

Los siguientes p(c) y n(c) representan la distancia positiva y la distancia negativa respectivamente. M (c) representa la coincidencia de pérdida triplete actual c.

②Agregue una pérdida de clasificación marginal triple que describe la suboptimización.

Dado que las características D2 representan el mapa de puntuación y el descriptor de interés, la optimización en este artículo requiere la optimización conjunta de la detección y la descripción. Sobre la base de la triple pérdida diferencial, se añade el objetivo de optimización de mejorar la repetibilidad de los resultados de detección. El método de implementación específico es: utilizar las puntuaciones de detección de todas las correspondencias en las dos imágenes de entrada para realizar un promedio ponderado de la pérdida triple calculada por la coincidencia actual. Si la pérdida triple de la coincidencia actual es muy baja (es decir, la coincidencia). La distancia del par es mucho menor que sus respectivos pares negativos difíciles máximos), para minimizar la pérdida, a los pares de correspondencia con pérdidas triples pequeñas (es decir, alta discriminación) se les dará naturalmente mayor peso a otras correspondencias con pérdidas triples grandes; recibir pesos menores.

Creo que la notación de la fórmula (13) en este artículo es un poco confusa. m(p(c), n(c)) se escribe directamente, m(c) puede ser más conciso.

上篇: De la estación Jiefang Park a la estación de televisión educativa de Wuhan 下篇: ¿Qué es el proyecto de pérdida de peso?