Fecha de presentación: 2014.
Dirección: blogs.com/zjutzz/p/8232740.html.
Título del artículo: Red de atención: agregación de direcciones débiles para una detección precisa de objetos.
Fecha de presentación: 2015 ICCV
Dirección del artículo:/content/pdf/10.1007/978-3-319-10578-9_23.pdf.
En respuesta a este problema:
Por ejemplo, RCNN procesará los bloques de imagen de destino de entrada al mismo tamaño y luego los ingresará en la red CNN durante el proceso de procesamiento. Se generará la información del bloque de imagen de pérdida. En escenarios reales, es difícil unificar el tamaño objetivo de la red de entrada. La capa final completamente conectada de la red requiere que la información de la característica de entrada sea un vector de dimensiones uniformes. Los autores intentan unificar las dimensiones de las características extraídas de redes CNN de diferentes tamaños.
Innovación:
En la SPPnet propuesta por el autor, al utilizar la agrupación piramidal de características, la salida final de la capa convolucional se puede unificar al tamaño requerido por la capa completamente conectada. Durante el entrenamiento, la operación de agrupación aún se completa a través de la ventana deslizante, y el ancho, alto y tamaño del paso del núcleo de agrupación se calculan a partir del ancho y alto del mapa de características de la capa actual. El diagrama de funcionamiento de la agrupación piramidal de funciones en el artículo original es el siguiente.
Blog de referencia:/content_iccv_2065 438+05/papers/gidaris_object_detection_via_iccv_2065 438+05_paper.pdf.
En respuesta a este problema:
Dado que el tercer artículo propuso el algoritmo multibox para localizar el objetivo a detectar en la imagen de entrada, el autor de este artículo lo intentó. Agregar algunos métodos y técnicas de entrenamiento para mejorar la precisión del posicionamiento final de la red CNN.
Innovación:
Al procesar el área de entrada de la red (a través de la mejora de datos, la red puede usar información contextual alrededor del objetivo para obtener un marco de objetivo más preciso), el La precisión de la red del objetivo se puede mejorar. Precisión del marco de regresión. Los métodos de procesamiento específicos incluyen: expandir el cuadro delimitador de la etiqueta del destino de entrada, tomar parte del cuadro delimitador de la etiqueta del destino de entrada, etc. y regresar a diferentes áreas respectivamente, lo que hace que la red sea más sensible a los límites del objetivo. Esta operación enriquece la diversidad de objetivos de entrada, mejorando así la precisión del cuadro de regresión.
Blog de referencia:/content_iccv_2065 438+05/papers/gir enfermo_fast_r-CNN_iccv_2065 438+05_paper.pdf.
En respuesta a este problema:
La CNN en RCNN debe realizar cálculos directos cada vez que ingresa un bloque de imagen, lo que obviamente lleva mucho tiempo, entonces, ¿cómo optimizar esta parte? ?
Innovación:
Refiriéndose a SPPNet (sexto artículo), el autor implementó ROIpooling en la red, de modo que los bloques de imágenes de entrada no necesitan recortarse a un tamaño uniforme, por lo que evitando la necesidad de ingresar información de pérdida. En segundo lugar, la imagen completa se ingresa en la red para obtener el mapa de características, y luego el cuadro de destino obtenido por el algoritmo de búsqueda selectiva en la imagen original se asigna al mapa de características para evitar la extracción repetida de características.
Blog de referencia:/content_iccv_2015/papers/harmony_deep propuesta_hunting_objects_iccv_2015_paper.pdf.
El problema principal es:
El autor de este artículo observó que CNN puede extraer artículos excelentes para caracterizar la imagen de entrada y trató de discutir y analizar el papel de las características generadas por diferentes capas de la red CNN a través de experimentos y situaciones.
Innovación:
El autor genera hipótesis sobre diferentes capas de activación a través de ventanas deslizantes. Los resultados muestran que la capa convolucional final puede encontrar el objeto de interés con una alta tasa de recuperación, pero debido. Debido a la rugosidad del mapa de características, la localización es deficiente.
Por el contrario, la primera capa de la red puede localizar mejor objetos de interés, pero con una recuperación reducida.
Título del artículo: R-CNN más rápido: detección de objetos en tiempo real utilizando redes de propuesta de región.
Fecha de presentación: NIPS 2015
Dirección del archivo:/p/31426458