Este año se cumple el 70 aniversario de la publicación del artículo de Alan Turing que introdujo el concepto de “Prueba de Turing”. En este artículo respondió a la pregunta: "¿Pueden pensar las máquinas?". El objetivo de esta prueba es determinar si las máquinas pueden exhibir un comportamiento conversacional indistinguible del de los humanos.
Turing predijo que para el año 2000, la probabilidad de que la gente común distinga entre inteligencia artificial y personas reales en los juegos de simulación será inferior al 70%. Los respondedores en el juego pueden ser personas reales o inteligencia artificial. No soy consciente de esto.
Alan Turing
¿Por qué nosotros, como industria, no podemos lograr este objetivo 20 años después? No creo que el objetivo de Turing sea realista para un científico de IA como yo.
La prueba de Turing está plagada de factores limitantes, algunos de los cuales el propio Turing analizó en este artículo fundamental. A medida que la inteligencia artificial se integra ampliamente en los teléfonos móviles, los automóviles y los hogares, se hace cada vez más evidente que la gente está cada vez más preocupada por si su interacción con las máquinas es práctica, fluida y transparente, y el concepto de distinguir las máquinas de las personas está obsoleto.
Así que es hora de retirar la leyenda que ha sido fuente de inspiración durante 70 años. Necesitamos plantear un nuevo desafío que inspire tanto a investigadores como a profesionales.
El Test de Turing y la imaginación pública
A pocos años de su concepción, el Test de Turing se ha convertido en la estrella polar en el campo de la inteligencia artificial.
El objetivo de Eliza y Parry, los primeros chatbots de las décadas de 1960 y 1970, era pasar la prueba de Turing. En 2014, se anunció que el chatbot Eugene Goostman había pasado la prueba de Turing, engañando a 33 jueces humanos haciéndoles creer que era una persona real. Sin embargo, otros señalaron que el estándar de engañar a 30 árbitros humanos es arbitrario. Aun así, la victoria dejó cierta sensación de abandono.
Sin embargo, la Prueba de Turing sigue captando la imaginación del público. El modelo de lenguaje Transformer 3 (GPT-3) “generativo preentrenado” de OpenAI está en los titulares por su potencial para superar la prueba de Turing. Del mismo modo, periodistas, líderes empresariales y otros observadores todavía me preguntan: "¿Cuándo pasará Alexa la prueba de Turing?"
No hay duda de que la prueba de Turing es una forma de medir la inteligencia de Alexa, pero utilizarla ¿Realmente importa medir la inteligencia de Alexa de esta manera? ¿Tiene sentido?
Para responder a esta pregunta, primero nos remontamos al momento en que Turing propuso este artículo por primera vez.
En 1950, el primer ordenador comercial aún no estaba en el mercado. Cuatro años después se publicó una investigación básica sobre los cables ópticos. El campo de la inteligencia artificial no se formó hasta 1956. Los teléfonos móviles actuales tienen 65.438 millones de veces la potencia informática del Apolo 11. Junto con la computación en la nube y conexiones de gran ancho de banda, la IA puede tomar decisiones basadas en cantidades masivas de datos en segundos.
Aunque las ideas originales de Turing todavía pueden inspirarnos, entender la prueba de Turing como el símbolo supremo del progreso de la inteligencia artificial estará inevitablemente limitado por la época en que se propuso por primera vez.
En primer lugar, la prueba de Turing casi no tiene en cuenta las propiedades mecánicas de la inteligencia artificial, como la computación rápida y la búsqueda de información, que son las características más efectivas de la inteligencia artificial moderna.
El énfasis deliberado en engañar a los humanos significa que si la inteligencia artificial quiere pasar la prueba de Turing, debe responder "¿Sabes cuál es la raíz cúbica de 3434756?" o "¿A qué distancia está Seattle de Boston?" "Haga una pausa cuando se le haga una pregunta.
De hecho, la IA conoce estas respuestas inmediatamente, y hacer una pausa para que sus respuestas suenen más como las de una persona real no es la mejor manera de utilizar sus habilidades.
Además, el Test de Turing no tiene en cuenta la creciente capacidad de la inteligencia artificial para utilizar sensores para oír, ver y sentir el mundo exterior. Por el contrario, el Test de Turing se limita a la comunicación textual.
En segundo lugar, para que la IA sea útil hoy en día, estos sistemas deben ser eficientes a la hora de completar nuestras tareas diarias. No querrás iniciar una conversación cuando le pidas a un asistente de IA que apague las luces de tu garaje por ti. En su lugar, querrás que cumpla con la solicitud de inmediato y te notifique con una simple confirmación como "ok" o "ok".
Incluso si mantienes una conversación a gran escala con tu asistente de IA sobre un tema candente o le pides que le lea un cuento a tu hijo, igual querrás saber que se trata de una IA y no de una realidad. persona. De hecho, "engañar" a los usuarios haciéndose pasar por personas reales conlleva riesgos reales. Teniendo en cuenta la posibilidad de una distopía, ya estamos empezando a ver la aparición de robots que difunden noticias falsas y deepfake.
La inteligencia artificial se enfrenta a nuevos e importantes retos.
En lugar de obsesionarnos con hacer que la inteligencia artificial no sea diferente de los humanos, deberíamos comprometernos a construir una inteligencia artificial que pueda mejorar la inteligencia humana y mejorar nuestra vida diaria de una manera justa e inclusiva.
Un objetivo potencial valioso es que la IA exhiba atributos de inteligencia similares a los humanos (incluidos sentido común, autocontrol y habilidades lingüísticas) combinados con eficiencias de las máquinas, como búsqueda rápida, recuperación de memoria y finalización de tareas en tu nombre. El resultado final es aprender y completar diversas tareas y adaptarse a nuevas situaciones, lo que va mucho más allá de lo que una persona común y corriente puede hacer.
Este enfoque revela lo que realmente importa en la IA: comprensión sensorial, conversación, conocimiento profundo, aprendizaje eficiente, razonamiento para la toma de decisiones y la eliminación de cualquier sesgo inapropiado (es decir, lograr la equidad). El progreso en estas áreas se puede medir de muchas maneras.
Un enfoque es dividir el desafío en tareas. Por ejemplo, el “Desafío de abstracción y razonamiento” de Kaggle se centra en resolver tareas de razonamiento que la inteligencia artificial nunca antes había visto.
Otro método consiste en diseñar un desafío del mundo real a gran escala para la interacción entre humanos y computadoras, como el "Alexa Social Robot Grand Prix", una competencia de inteligencia artificial conversacional para estudiantes universitarios.
De hecho, cuando lanzamos el Gran Premio de Alexa en 2016, tuvimos un acalorado debate sobre cómo evaluar los "robots sociales" de los competidores. ¿Queremos que la gente crea que los robots sociales son personas reales que realizan algún tipo de prueba de Turing? En otras palabras, ¿queremos que la inteligencia artificial tenga la capacidad de mantener conversaciones naturales para promover el aprendizaje, brindar entretenimiento o simplemente tratarlo como un pasatiempo placentero?
Sofía, el primer robot en recibir la ciudadanía.
Creamos una regla que requería que el robot social tuviera una conversación coherente e interesante con una persona real en 20 minutos sobre una amplia gama de temas candentes, incluidos entretenimiento, deportes, política y tecnología.
Durante la fase de desarrollo previa a la final, los clientes califican el bot en función de si les gustaría volver a hablar con él. En la final, un juez humano independiente los puntuará en una escala de cinco puntos basada en la coherencia y la naturalidad.
Si algún robot social tiene una duración promedio de conversación de 20 minutos y una puntuación de 4,0 o superior, superará este gran desafío.
Aunque ningún robot social ha superado todavía este gran desafío, este enfoque está guiando el desarrollo de inteligencia artificial con capacidades de conversación similares a las humanas con la ayuda de métodos neuronales basados en el aprendizaje profundo. Prioriza que la IA muestre humor y empatía en situaciones apropiadas, en lugar de pretender ser una persona real.