Tesis para ciegos

En términos de visión, ¿qué tan grande es la brecha entre la IA y los humanos? Investigadores de UC Berkeley y otras universidades crearon un conjunto de datos de 7.500 "ejemplos naturales de confrontación". Probé muchos sistemas de visión artificial y descubrí que la precisión de la IA se redujo en un 90%. En algunos casos, el software sólo reconoce entre el 2% y el 3% de las imágenes. Si dicha IA se utiliza en vehículos autónomos, ¡las consecuencias serán desastrosas!

La visión por ordenador ha mejorado mucho en los últimos años, pero aún es posible cometer errores graves. Hay tantos errores que existe todo un campo de investigación dedicado a imágenes que la IA a menudo identifica erróneamente, llamadas "imágenes adversas". Se pueden considerar como ilusiones ópticas informáticas. Cuando ves un gato en un árbol, la IA ve una ardilla.

Es necesario estudiar estas imágenes. Cuando colocamos los sistemas de visión artificial en el centro de las nuevas tecnologías, como las cámaras de seguridad con inteligencia artificial y los vehículos autónomos, creemos que las computadoras ven el mismo mundo que nosotros. Las imágenes opuestas demuestran lo contrario.

Las imágenes adversarias explotan las debilidades de los sistemas de aprendizaje automático

Sin embargo, si bien gran parte de la atención en este campo se ha centrado en imágenes diseñadas específicamente para engañar a la IA (como el algoritmo de Google que imprimió en 3D tortuga confundida con arma), pero naturalmente surgen estas imágenes confusas. Este tipo de imágenes es aún más preocupante porque muestra que nuestro sistema visual puede cometer errores incluso cuando no es nuestra intención.

Para demostrar esto, un equipo de investigadores de la Universidad de California, Berkeley, la Universidad de Washington y la Universidad de Chicago crearon un conjunto de datos de 7.500 "ejemplos naturalmente opuestos". Probaron varios sistemas de visión artificial con estos datos y descubrieron que su precisión se redujo en un 90%. En algunos casos, el software sólo reconoce entre el 2% y el 3% de las imágenes.

A continuación se muestran algunos ejemplos de conjuntos de datos de "ejemplos de confrontación natural":

Se espera que los datos ayuden a desarrollar sistemas de visión más potentes.

En el artículo, los investigadores dijeron que se espera que los datos ayuden a desarrollar sistemas visuales más fuertes. Explican que las imágenes explotan "defectos profundos" derivados de la "confianza excesiva del software en el color, la textura y las señales de fondo" para identificar lo que ve.

Por ejemplo, en la imagen siguiente, AI consideró erróneamente la imagen de la izquierda como un clavo, probablemente debido al fondo de vetas de madera de la imagen. En la imagen de la derecha, solo notan el comedero para colibríes, pero ignoran el hecho de que no hay colibríes reales.

Las siguientes cuatro fotografías de libélulas fueron identificadas por IA de izquierda a derecha como zorrillo, plátano, león marino y guante después de analizar el color y la textura. Podemos ver en cada imagen por qué la IA comete errores.

Ya no es ninguna novedad que los sistemas de IA cometerán estos errores. Durante años, los investigadores han advertido que los sistemas visuales creados por el aprendizaje profundo son "superficiales" y "frágiles" y no tienen la flexibilidad para comprender algunos de los matices casi idénticos del mundo que los humanos.

Estos sistemas de IA han sido entrenados en miles de imágenes de muestra, pero a menudo no sabemos qué elementos exactos de la imagen fueron utilizados por la IA para emitir sus juicios.

Algunas investigaciones muestran que al considerar la forma y el contenido generales, los algoritmos no miran la imagen como un todo, sino que se centran en texturas y detalles específicos. Los resultados proporcionados por este conjunto de datos parecen respaldar esta explicación. Por ejemplo, una imagen con sombras claras sobre una superficie brillante se identificaría incorrectamente como un reloj de sol.

¿Es realmente inútil el sistema de visión con IA?

Pero, ¿significa esto que estos sistemas de visión artificial no tienen remedio? de nada. Los errores que cometen estos sistemas son generalmente menores, como confundir una tapa de alcantarilla con una tapa de alcantarilla o confundir un camión con un automóvil de lujo.

Si bien los investigadores dicen que estos "ejemplos de antagonismo natural" pueden engañar a una variedad de sistemas visuales, eso no significa que todos los sistemas puedan ser engañados. Muchos sistemas de visión artificial son muy especializados, como los que se utilizan para identificar enfermedades en exploraciones médicas. Aunque estos sistemas tienen sus propias deficiencias y es posible que no puedan comprender el mundo y a los humanos, esto no afecta su detección y diagnóstico del cáncer.

Los sistemas de visión artificial a veces pueden ser rápidos y tener fallos, pero normalmente producen resultados. Este tipo de investigación expone puntos ciegos y lagunas en la investigación de imágenes mecánicas, y nuestra próxima tarea es llenar esos puntos ciegos.