ID de estudiante: 21011110234.
Con el desarrollo continuo de la tecnología de inteligencia artificial, el campo de los robots inteligentes también ha logrado un desarrollo sin precedentes. Especialmente después del uso generalizado de las redes neuronales profundas en los sistemas visuales, se han logrado muchos resultados obvios. Para los robots móviles autónomos, el sistema de visión juega un papel muy importante y la tecnología de segmentación de imágenes juega un papel muy importante en este sistema. La tecnología tradicional de segmentación de imágenes básicamente ha podido separar el primer plano y el fondo de las imágenes. Sin embargo, en los últimos años, con el desarrollo de algoritmos de aprendizaje profundo, la gente ha comenzado a aplicarlos a la segmentación de imágenes y ha propuesto muchas redes de segmentación y ha logrado buenos resultados. Resultados de segmentación. Sobre la base de la segmentación de imágenes, las personas también agregaron categorías semánticas y etiquetas a la segmentación, que ahora es segmentación semántica. Sobre la base de la introducción de la segmentación semántica, se introducen nuevos escenarios de segmentación de tareas, segmentación de instancias y segmentación panorámica. Este artículo también presenta la segmentación semántica de nubes de puntos 3D recientemente investigada y explica la necesidad de su implementación.
Robot inteligente Niubi integrado, segmentación de imágenes, segmentación semántica, visión por ordenador.
Método tradicional común de tecnología de segmentación de imágenes integrado en el problema de la vaca
Texto de vaca integrado
1 Introducción
Visión por computadora, es decir. , La visión por computadora es una máquina que simula el principio de funcionamiento de la visión humana a través de computadoras para obtener y completar una serie de procesamiento de información de imágenes. La visión por computadora pertenece a la aplicación del aprendizaje automático en el campo de la visión. Es un campo de investigación interdisciplinario que involucra matemáticas, física, biología, ingeniería informática y otras disciplinas.
Las principales aplicaciones de la visión por ordenador incluyen conducción no tripulada, reconocimiento facial, seguridad no tripulada, reconocimiento de matrículas de vehículos, transmisión inteligente de imágenes, reconstrucción 3D, VR/AR, fotografía inteligente, procesamiento de imágenes médicas y drones industriales. pruebas, etc La conducción humana, también conocida como conducción autónoma, es una importante dirección de investigación en el campo de la inteligencia artificial. Permite a los automóviles conducir de forma autónoma o ayudar a los conductores a mejorar la seguridad de las operaciones de conducción. En la actualidad, la tecnología de reconocimiento facial está relativamente madura y se ha aplicado en muchos lugares. La precisión del reconocimiento facial es mayor que la del ojo humano. La seguridad siempre ha sido un tema al que nuestro país concede gran importancia y también es un tema de especial preocupación para la gente. Se han organizado patrullas en muchos lugares importantes y también se han organizado patrullas de seguridad en zonas residenciales y empresas para garantizar la seguridad. El reconocimiento de matrículas de vehículos es actualmente una tecnología inmadura. El reconocimiento de matrículas de vehículos se utiliza para la detección de infracciones, análisis del flujo de tráfico, reconocimiento de cinturones de seguridad, semáforos inteligentes y reconocimiento de vehículos en estacionamientos. Antes de la reconstrucción 3D, se usaba ampliamente en campos industriales. Se puede utilizar para modelar objetos tridimensionales, medir cómodamente varios parámetros del objeto o simplemente copiar el objeto. Existen muchas aplicaciones de la visión por computadora y, con el desarrollo de la tecnología, habrá cada vez más campos de aplicación. Aplicaciones en campos industriales, aplicaciones en robótica, etc.
Para el proceso tradicional de segmentación de imágenes, generalmente se puede dividir en cinco pasos, a saber, percepción de características, preprocesamiento de imágenes, extracción de características, selección de características y reconocimiento de predicción de inferencia. A través de investigaciones, se ha descubierto que en las primeras etapas del desarrollo visual, las personas no prestaban suficiente atención a las características de las imágenes. El proceso de segmentación tradicional consiste en separar la extracción y clasificación de características y luego fusionarlas cuando sea necesario generar los resultados. Se puede imaginar la dificultad de implementación.
Después de la llegada de los algoritmos de aprendizaje profundo, las redes neuronales convolucionales se han utilizado ampliamente en la tecnología de visión por computadora y se han derivado muchas direcciones de investigación. El aprendizaje profundo realiza principalmente comparaciones basadas en características. Por ejemplo, en el reconocimiento de rostros, se utiliza una red neuronal convolucional para extraer las características de dos rostros en diferentes ubicaciones, luego compararlas entre sí y finalmente obtener los resultados de la comparación. Las principales direcciones de investigación actuales de la visión por computadora incluyen clasificación de imágenes, detección de objetivos, segmentación de imágenes, seguimiento de objetivos, filtrado de imágenes y reducción de ruido, mejora de imágenes, estilización, reconstrucción tridimensional, recuperación de imágenes, GAN, etc. Este artículo proporciona principalmente una breve descripción general del campo de la segmentación de imágenes.
La tecnología de segmentación de imágenes es una importante dirección de investigación en el campo de la visión por computadora y una parte importante de la comprensión semántica de imágenes. La segmentación de imágenes se refiere al proceso de dividir una imagen en varias regiones con atributos similares. Desde un punto de vista matemático, la segmentación de imágenes es el proceso de dividir una imagen en regiones disjuntas. En los últimos años, con la profundización gradual de la tecnología de aprendizaje profundo, la tecnología de segmentación de imágenes se ha desarrollado a pasos agigantados.
Las tecnologías relacionadas con esta tecnología, como la segmentación de objetos de la escena, la segmentación del fondo del cuerpo humano, el análisis de rostros y cuerpos humanos, la reconstrucción tridimensional, etc., se han utilizado ampliamente en industrias como la conducción sin conductor, la realidad aumentada y el monitoreo de seguridad.
2. Estado de desarrollo
En los últimos años, muchos académicos han aplicado la tecnología de segmentación de imágenes al control de robots móviles. Esta tecnología puede posicionar, construir mapas y segmentar imágenes mientras el robot. Se mueve. Diferentes primeros planos y fondos hacen que las imágenes escaneadas por el sistema visual tengan información semántica. Algunos estudiosos también están trabajando en una segmentación más precisa y precisa, que no sólo pueda distinguir diferentes tipos de objetos, sino también clasificar diferentes objetos del mismo tipo e incluso dividir el fondo sobre esta base. Debido a que el mundo en el que vivimos es un espacio tridimensional, algunos estudiosos restauran la escena de la imagen a tres dimensiones y luego utilizan métodos relacionados para segmentar toda la escena tridimensional. La segmentación de imágenes, como problema clásico en la investigación de la visión por computadora, ha atraído cada vez más atención.
? El primero es el método tradicional de segmentación de imágenes. En la segmentación tradicional, las personas utilizan conocimientos de procesamiento de imágenes digitales, topología y matemáticas para segmentar imágenes. Aunque la potencia informática está aumentando gradualmente y el aprendizaje profundo también se está desarrollando, algunos métodos de segmentación tradicionales no son tan efectivos como el aprendizaje profundo, pero todavía hay muchas ideas de las que vale la pena aprender.
El primer método es la segmentación de imágenes basada en umbrales. La idea central de este método es proporcionar uno o más umbrales de escala de grises de acuerdo con las características de escala de grises de la imagen y comparar este umbral con cada píxel de la imagen uno por uno como valor estándar. Es fácil pensar que a través de este proceso de comparación uno por uno se pueden obtener dos resultados, uno es un conjunto de píxeles con un valor de gris mayor que el umbral y el otro es un conjunto de píxeles con un valor de gris menor. que el umbral, segmentando así naturalmente la imagen. Por lo tanto, no nos resulta difícil encontrar que el paso más crítico de este método es obtener el umbral de gris óptimo en función de una determinada función de criterio, para obtener resultados de clasificación adecuados. Vale la pena mencionar que si el objetivo y el fondo a segmentar en la imagen ocupan diferentes valores de gris o incluso diferentes niveles, entonces este método logrará buenos resultados. Además, si solo necesitamos establecer un umbral para el procesamiento de una imagen, se le puede llamar segmentación de umbral único. Sin embargo, si hay más de un objetivo en la imagen, es decir, cuando hay varios objetivos que deben extraerse, una segmentación de umbral único no puede separarlos a todos. En este momento, es necesario seleccionar varios umbrales para el procesamiento y el proceso de segmentación es una segmentación de múltiples umbrales. En general, el método de segmentación de umbral tiene características únicas, cálculo simple y alta eficiencia. Sin embargo, dado que este método solo considera el valor de gris de un solo píxel y sus características, ignora por completo las características espaciales, lo que lo hace sensible al ruido y de baja robustez.
El segundo método es la segmentación de imágenes basada en regiones. Hay dos formas básicas de este método: una es el crecimiento de regiones, que comienza desde un solo píxel y fusiona gradualmente regiones similares para finalmente obtener la región requerida. Otro método consiste en comenzar directamente desde la imagen general y cortar gradualmente hasta el área requerida poco a poco. El crecimiento de regiones se refiere a proporcionar un conjunto de píxeles semilla, que representan diferentes regiones de crecimiento y luego fusionar gradualmente estos píxeles semilla en píxeles calificados en la vecindad. Si se agregan nuevos píxeles, también se consideran píxeles iniciales.
Se puede decir que el proceso de segmentación de división y fusión de regiones es el proceso inverso del crecimiento de la región. Este método comienza desde la imagen general, obtiene cada subregión mediante división continua y luego extrae el objetivo. Además, en este proceso es necesario fusionar las áreas de primer plano.
También existe un algoritmo de cuenca hidrográfica entre los métodos de segmentación de regiones. Este método de segmentación está inspirado en la composición de cuencas hidrográficas y trata la imagen como un relieve topológico geodésico, de modo que la elevación correspondiente a cada píxel de la imagen se puede representar mediante el valor de gris de ese punto. El proceso de formación de la cuenca se puede realizar simulando el proceso de inmersión. Específicamente, se perfora un pequeño agujero en la superficie de cada mínimo local y luego el modelo se sumerge lentamente en agua. A medida que el agua penetra lentamente en él, se forma una cuenca.
El tercer método es un método de segmentación basado en la detección de bordes. La idea de la detección de bordes es segmentar imágenes detectando los bordes de diferentes objetos. Este método fue uno de los primeros en ser estudiado. Si transformamos la imagen del dominio espacial al dominio de frecuencia y la parte del borde del objeto corresponde a la parte de alta frecuencia, es fácil encontrar la información del borde y el problema de segmentación se vuelve más fácil. El método de detección de bordes puede lograr un posicionamiento rápido y preciso, pero no puede garantizar la continuidad y el cierre de los bordes. Cuando hay demasiada información detallada en una imagen, se producirá una gran cantidad de bordes delgados en los bordes y habrá defectos al formar un área de segmentación completa.
El cuarto método de segmentación de imágenes combina herramientas específicas.
Las herramientas específicas mencionadas aquí son varias herramientas y algoritmos de procesamiento de imágenes. Con la profundización de la investigación sobre la segmentación de imágenes, muchos académicos han comenzado a aplicar algunas herramientas y algoritmos de procesamiento de imágenes a este trabajo y han logrado buenos resultados. La transformada Wavelet juega un papel importante en el procesamiento de imágenes digitales, que puede unificar el dominio del tiempo y el dominio de la frecuencia para estudiar señales. Especialmente en la detección de bordes de imágenes, la transformada wavelet puede detectar la capacidad de mutación local de funciones binarias. En segundo lugar, la segmentación de imágenes se basa en un algoritmo genético, que se basa principalmente en el método de búsqueda aleatoria de la selección natural y los mecanismos genéticos naturales en biología. Simula el proceso evolutivo de poblaciones biológicas controladas por secuencias genéticas y es bueno en búsqueda global, pero carece de capacidades de búsqueda local. La aplicación de algoritmos genéticos al procesamiento de imágenes también es un tema candente en la investigación actual. La razón principal para elegir este método aquí es que el algoritmo genético tiene capacidades de búsqueda aleatoria rápida y sus capacidades de búsqueda no tienen nada que ver con el dominio del problema.
Además, existen métodos de segmentación basados en el modelo de contorno activo, que tienen una forma de descripción unificada y abierta, proporcionando un marco ideal para la investigación e innovación de la tecnología de segmentación de imágenes. Este método también es un método para detectar información de bordes, principalmente utilizando la evolución de curvas para detectar objetivos en una imagen determinada.