Este artículo tiene como objetivo revisar exhaustivamente los últimos avances en la detección de objetivos destacados y compararlos. con otras áreas estrechamente relacionadas, como la segmentación general de escenas, la generación de señales de destino y el significado de predicción fijo. Los contenidos principales incluyen: 1) causas fundamentales, conceptos y tareas clave; 2) tecnologías centrales y principales tendencias de modelado; 3) conjuntos de datos e indicadores de evaluación en la detección de objetivos destacados; Se discuten y plantean cuestiones abiertas como la dirección inversa para futuras investigaciones.
1.
1.1 ¿Qué es un objeto saliente?
Se menciona que generalmente se cree que un buen modelo de detección de prominencia debe cumplir al menos los siguientes tres criterios: 1) Buena detección: la posibilidad de perder áreas destacadas reales y marcar incorrectamente el fondo como áreas destacadas. La precisión debe ser menor; 2) Alta resolución: el mapa de prominencia debe tener alta resolución o resolución completa para localizar con precisión los objetos destacados y preservar la información de la imagen original. 3) Eficiencia computacional: como interfaz de otros procesos complejos, estos modelos deben; Ser capaz de detectar rápidamente áreas significativas.
1.3 Historial de detección de objetos importantes
(1) El modelo de prominencia más antiguo y clásico propuesto por ITTI et al., como el mapa de prominencia predicho, G es la forma básica de la máscara de valor del objeto saliente II.
(1) Recuperación de precisión (PR). Primero, el mapa de prominencia s se convierte en una máscara binaria m, y luego la precisión y la recuperación se calculan comparando m con la verdad fundamental g:
(2) Valor F: por lo general, ni la precisión ni la La tasa de recuperación ni la tasa de recuperación pueden evaluar completamente la calidad del mapa de prominencia. Por lo tanto, el valor F se propone como el peso no negativo de la precisión y recuperación del promedio de salto de río centralizado:
(3) Curva ROC (receiver Operating feature): se basa en el falso positivo tasa (FP_rate) y la curva A falsa con la tasa negativa (TP_rate) como eje.
(4) Área bajo la curva ROC (AUC): cuanto mayor sea el AUC, mejor será el rendimiento.
(5) Error absoluto medio (MAE): para una comparación más completa.
Figura 12, conjunto de datos de detección de objetos destacados populares:
¿Segundo,? Complemento de las pruebas de significancia tradicionales (la clasificación en el artículo no es consistente con mis hábitos habituales, así que recopilé los datos nuevamente y los clasifiqué)
Métodos de prueba de significancia comunes:
1 .? Modelos cognitivos
Casi todos los modelos están directa o indirectamente inspirados en modelos cognitivos, uno de los cuales es la combinación de psicología y neurología. El modelo Itti (que utiliza tres canales de características de color, atributo y dirección) es un representante de este tipo de modelo y también es la base de muchos modelos derivados posteriores.
2.? La esencia del modelo de teoría de la información es maximizar la información del entorno visual. El modelo más influyente es el modelo AIM.
3.? Modelo de teoría de grafos
El modelo de prominencia basado en rueda de gráficos trata los datos de movimiento ocular como una serie de tiempo, utilizando modelos ocultos de Markov, redes bayesianas dinámicas y campos aleatorios condicionales. Los modelos gráficos pueden modelar mecanismos de atención complejos y, por tanto, lograr mejores capacidades de predicción. La desventaja es la alta complejidad del modelo, especialmente en términos de entrenamiento y legibilidad. Los típicos incluyen: GBVS, etc.
4.? Modelo de dominio de frecuencia
El modelo de prominencia basado en el análisis espectral tiene una forma simple, fácil de explicar e implementar y ha logrado un gran éxito en la predicción del foco de atención y la detección de áreas salientes, pero su racionalidad biológica no es muy clara. . Los modelos clásicos incluyen: modelo de detección de significancia de residuos espectrales (método de cálculo matemático puro).
Enlace de recursos:
/p-915060851.html
/p-4993561181219.html
/u 012507022/article/details /52863461
¿Tercero,? Contenido complementario de detección de prominencia basado en aprendizaje profundo (el artículo se escribió en 2014, la parte sobre aprendizaje profundo está incompleta, agréguela aquí)
En las primeras etapas de desarrollo, la investigación sobre detección de objetivos destacados Basado en el aprendizaje profundo a partir del objetivo, ha sido difícil lograr resultados ideales desde la detección de redes neuronales hasta el sobreentrenamiento. El nacimiento de R-CNN en 2065438 2004 se convirtió en la primera solución de aplicación verdaderamente de grado industrial, y su mAP en el conjunto de pruebas VOC2007 aumentó a 66. Sin embargo, todavía hay muchos problemas en el marco R-CNN:
1) El entrenamiento se divide en varias etapas y los pasos son relativamente complicados: ajuste fino de la red, entrenamiento SVM y entrenamiento de regresión de límites.
2) La capacitación requiere mucho tiempo y mucho espacio en disco: 5000 imágenes generan cientos de g archivos de características.
3) Velocidad lenta: Se necesitan 47 segundos para procesar una imagen usando GPU y modelo VGG-16.
Hasta ahora, la investigación sobre la detección de objetos destacados basada en el aprendizaje profundo se puede dividir en dos categorías: detección de objetos de aprendizaje profundo basada en sugerencias de región y detección de objetos de aprendizaje profundo basada en regresión.
Los métodos de detección de objetivos de aprendizaje profundo basados en sugerencias de región incluyen: R-CNN, SPP-net, FastR-CNN, FAST R-CNN, R-FCN, etc.
1) R-CNN (región con características de CNN) es más costosa en tiempo y espacio.
2) SPP-net (agrupación piramidal espacial) fortalece la comprensión de CNN El uso; de permite la entrada de imágenes de diferentes tamaños, lo que enfatiza aún más la idea de hacer avanzar el cálculo de características de CNN y el procesamiento regional más adelante, lo que ahorra en gran medida la cantidad de cálculo, pero no es un modelo de extremo a extremo y no hay parámetros de enlace para la extracción de características de CNN;
3) La aparición de fastr-CNN resuelve el problema de conteo repetido de los dos primeros y realiza la convolución de la sugerencia de región y la detección de objetivos. La tecnología RoI Pooling propuesta por primera vez aprovecha al máximo las ventajas del retroceso regional y acelera la capacitación. El modelo de red CNN utiliza VGG-16, que mejora los resultados experimentales al vincular parámetros, pero aún no implementa un modelo de extremo a extremo y depende en gran medida de las sugerencias de la región SS.
4) R-CNN, más rápido, abandona la búsqueda selectiva y propone una red RPN para calcular fotogramas candidatos. El uso de redes de extremo a extremo para la detección de objetivos ha mejorado enormemente tanto la velocidad como la precisión, pero la velocidad no puede satisfacer las necesidades en tiempo real, la cantidad de cálculo para cada clasificación propuesta sigue siendo muy grande y la función aún no ha entrado en el caso. etapa de segmentación.
Los métodos de detección de objetivos de aprendizaje profundo basados en regresión incluyen YOLO, SSD, G-CNN, NMS, etc.
1) YOLO (solo mira una vez) transforma la tarea de detección de objetivos en un problema de regresión, lo que simplifica enormemente el proceso de detección y acelera la velocidad de detección. Sin embargo, al predecir la ventana de destino, se utiliza información global, que tiene una alta redundancia, ningún mecanismo de sugerencia regional y una baja precisión de detección.
2) SSD (Detector de cajas múltiples de disparo único) utiliza las características alrededor de una determinada posición al predecir la posición. Combina la idea de regresión de YOLO y el mecanismo de región candidata en FasterR-CNN, que no solo mantiene la velocidad de YOLO, sino que también garantiza la precisión del posicionamiento.
3) G-CNN se enfoca en reducir la cantidad de sugerencias de inicialización, convirtiendo decenas de miles de sugerencias en una pequeña cantidad de cuadrículas iniciales, mejorando la velocidad de detección;
4 4) NMS (Supresión no máxima) Elimina iterativamente fotogramas candidatos duplicados y selecciona el fotograma con mayor confianza.
Actualmente, la detección de objetivos de aprendizaje profundo basada en sugerencias de regiones se utiliza ampliamente en aplicaciones prácticas.
Estado de la investigación de los métodos de detección de prominencia basados en el aprendizaje profundo:
La serie R-CNN de marcos de detección de objetivos destacados y el marco de detección de objetivos destacados de YOLO nos proporcionan una detección de objetivos basada en métodos de detección de objetivos destacados basados en aprendizaje profundo. aprendizaje. Actualmente, los investigadores han propuesto una serie de métodos para mejorar el rendimiento de detección de objetivos desde otros aspectos basados en estos marcos. Tales como: minería de muestras difícil, fusión de características multicapa, uso de información contextual, características de aprendizaje de red más profundo, etc.
Enlace original: /QQ_32493539/article/details/79530118.