¿Cómo se creó el AlphaGo más potente?

¿Cómo restablecer a cero el AlphaGo más potente?

Justo ahora, Deepmind celebró un evento de preguntas y respuestas en línea AMA en la sección de aprendizaje automático de Reddit. David Silver, líder del grupo de aprendizaje por refuerzo Deepmind, y sus colegas respondieron con entusiasmo varias preguntas planteadas por los internautas. Dado que Deepmind acababa de publicar el artículo "Dominar el juego Go sin conocimiento humano" el día antes de la AMA, las preguntas y discusiones relacionadas también fueron extremadamente acaloradas.

¿Qué es AMA?

AMA (Ask Me Anything) es una columna especial en Reddit. También puedes considerarla como una "Verdad o Reto" en línea. Los AMA generalmente establecen una hora en Reddit con unos días de anticipación para recopilar preguntas, y los encuestados las responderán de manera uniforme.

La respuesta a este reflexivo AMA es:

David Silver: líder del grupo de aprendizaje por refuerzo mental profundo e investigador jefe de AlphaGo. David Silver se graduó en la Universidad de Cambridge en 1997 y ganó el premio Addison Wesley. David recibió su doctorado en Ciencias de la Computación de la Universidad de Alberta en 2004 y se unió a DeepMind en 2013. Es el director técnico principal del proyecto AlphaGo.

Julian Schrittwieser: ingeniero de software de Deepmind en Deepmind.

Anteriormente, muchos grandes nombres/empresas en el campo del aprendizaje automático han abierto AMA en el aprendizaje automático de Reddit, incluidos: el equipo de Google Brain, el equipo de investigación de OpenAI, Andrew Ng y Adam Coates, Jürgen Schmi De Huber, Geoffrey Hinton, Michael Jordan, Yann LeCun, Yoshua Bengio, etc.

Hemos seleccionado algunas preguntas representativas del AMA de mente profunda de hoy, organizadas de la siguiente manera:

Acerca del documento y los detalles técnicos

P: ¿Por qué la capacitación de DeepMind Is Zero? tan estable? El aprendizaje por refuerzo profundo es inestable y fácil de olvidar, al igual que el juego personal. Sin un buen estado de inicialización y puntos de control del historial basados ​​en imitación, los dos combinados deberían ser un desastre... pero empezar desde cero, no vi esa parte en el documento. ¿Cómo lo hiciste?

David Silver: En el aprendizaje por refuerzo profundo, AlphaGo Zero es completamente diferente de los algoritmos no modales típicos, como el gradiente de políticas o el Q-learning. Al utilizar la búsqueda de AlphaGo, podemos mejorar en gran medida los resultados de la política y la autoconcordancia, y luego entrenaremos la siguiente red de política y valor a través de actualizaciones simples basadas en gradientes. Este enfoque será más estable que las simples mejoras de políticas basadas en gradientes.

P: Noté que los datos de mejora del nivel ELO solo llegan al día 40. ¿Es por la fecha límite del trabajo? ¿O los datos de AlphaGo ya no mejorarán significativamente después de eso?

David Silver: ¡AlphaGo se ha retirado! Esto significa que todavía tenemos un largo camino por recorrer antes de trasladar nuestro personal y recursos de hardware a otros problemas de IA.

P: Dos preguntas sobre el artículo:

P1: ¿Puede explicar por qué el tamaño de entrada del bloque residual de AlphaGo es 19x19x17? No estoy seguro de por qué es necesario describir cada jugador con ocho capas de características binarias apiladas. Creo que con 1 y 2 capas son suficientes.

Aunque no entiendo el 100% de las reglas del Go, ¿ocho niveles me parecen demasiado?

P2: Dado que todos los canales utilizan la autocombinación para compararse con los últimos/mejores modelos, ¿cree que existe un riesgo de sobreajuste en el espacio de parámetros para una trayectoria de conducción SGD específica?

David Silver: Hablando de eso, ¡puede ser mejor usar representación que una pila de 8 capas! Pero usamos la superposición para observar datos históricos por tres razones: 1) es consistente con entradas comunes en otros campos; 2) necesitamos algunos estados históricos para expresar lo que fue KO 3) si tenemos algunos datos históricos, puede ser mejor; Adivina la posición más cercana del oponente, que puede usarse como mecanismo de atención (nota: en Go, esto se llama "el punto del enemigo es mi punto"), usando 17 capas para marcar si somos el guardia negro o la piedra blanca, porque Tenemos que considerar la relación entre metas y objetivos.

P: Con un potente motor de ajedrez, podemos puntuar a los jugadores de ajedrez; por ejemplo, la puntuación de Elo Go se obtiene gradualmente analizando las partidas de ajedrez de los jugadores, por lo que AlphaGo puede analizarla antes de puntuar. ¿Es fuerte el jugador de ajedrez? ? Esto puede proporcionar una plataforma para estudiar la cognición humana.

Julian Schrittwieser: Gracias por compartir. ¡Esta es una gran idea!

Creo que esto se puede hacer en Go. ¿Quizás podamos usar la diferencia entre la mejor respuesta y la respuesta real o la probabilidad obtenida por la red estratégica para evaluar la posición de cada mano? Lo intentaré cuando tenga tiempo.

P: Ahora que AlphaGo ha sido retirado, ¿hay algún plan para abrirlo? Esto tendrá un gran impacto en la comunidad Go y en la investigación del aprendizaje automático. Además, ¿cuándo se lanzarán las herramientas Go anunciadas por Hassabis en Wuzhen?

David Silver: Esta herramienta se está preparando ahora. Verás nuevos mensajes pronto.

P: P: ¿Cuál es el mayor obstáculo en la arquitectura del sistema durante el desarrollo de AlphaGo?

David Silver: Uno de los principales desafíos que encontramos fue jugar contra Lee Sedol. En ese momento nos dimos cuenta de que AlphaGo estaba ocasionalmente sujeto a lo que llamamos "ilusiones", en las que el programa podía malinterpretar la situación actual de la placa y continuar dando muchos pasos en la dirección equivocada. Hemos probado muchas soluciones, incluida la introducción de más conocimiento de Go o metaconocimiento humano para resolver este problema. Pero al final lo logramos, resolvimos este problema desde el propio AlphaGo, confiando más en el poder del aprendizaje por refuerzo y obtuvimos una solución de mayor calidad.

Preguntas para los entusiastas del Go

P: En 1846, en un partido entre el No. 14 Honibo Hidetoshi y el No. 11 Inoue Yinshuo, los 127 movimientos de Hidetoshi hicieron que las orejas de Yin Shuo se pusieran rojas. un instante y se convirtió en el "movimiento de orejas rojas" que regresó. Si fuera AlphaGo, ¿jugaría el mismo juego de ajedrez?

Julian Schrittwieser: Le pregunté a Fan Hui y su respuesta fue la siguiente:

El juego Go en ese momento no se pegaba a los ojos, pero en el juego AlphaGo, las negras tenían que hacerlo. quédate con 7,5 ojos. Las diferentes condiciones de publicación han dado lugar a diferencias entre los juegos de ajedrez antiguos y modernos. Si a AlphaGo se le permitiera hacer otro movimiento en aquel entonces, probablemente se jugaría en otro lugar.

P: En el juego AlphaGo anunciado, podemos ver que hay más tiempo para jugar piezas blancas, por lo que mucha gente especula que las 7,5 pegatinas son demasiado altas (nota: la cantidad de pegatinas en el Go moderno es en constante cambio, como hace 30 años, era popular usar pegatinas de malla 5,5 para pegar piezas blancas).

Si analizamos un conjunto de datos más amplio, ¿podemos sacar algunas conclusiones interesantes sobre las reglas del Go? (Por ejemplo, quién tiene ventaja, blanco o negro, si la pegatina debe ser mayor o menor)

Julian Schrittwieser: A juzgar por mi experiencia y mis resultados, la publicación del punto 7.5 está equilibrada para ambas partes. La tasa de victorias de Kuroko es ligeramente mayor (alrededor del 55%).

P: ¿Puedes contarme de primera mano tu selección? ¿ALphaGo comenzará como nada que hayamos visto antes? Por ejemplo, ¿la primera mano está en Tianyuan o fuera de Tianyan, o incluso en un lugar aún más extraño? Si no, ¿es esto un "hábito" o AlphaGo tiene una fuerte "creencia" de que la posición de las estrellas, los ojos pequeños y tres-tres son mejores opciones?

David Silver: Durante el entrenamiento, vimos que AlphaGo probó diferentes maneras de comenzar; ¡incluso al comienzo del entrenamiento, tomó la delantera!

Incluso al final del entrenamiento, todavía podemos ver cuatro o seis inicios con objetivos súper altos, pero rápidamente volvemos a los inicios normales con objetivos pequeños.

P: Como súper fan de AlphaGo, siempre he tenido una pregunta en mente: ¿Cuántos jugadores de ajedrez puede producir AlphaGo? Por el artículo, sabemos que AlphaGo puede jugar al ajedrez, y también sé que AlphaGo no puede permitir que Ke Jie juegue al ajedrez, pero creo que debes tener curiosidad. ¿Has realizado alguna prueba interna?

David Silver: No dejamos paso a los ajedrecistas humanos. Por supuesto, hemos jugado al ajedrez al probar diferentes versiones. Entre las tres versiones de AlphaGo Master, gtAlphaGo Lee y gtALphaGo Fan, la última versión puede permitir que tres piezas derroten a la versión anterior. Sin embargo, debido a que AlphaGo es autodidacta, es particularmente bueno para vencer a su versión anterior más débil, por lo que no creemos que estos métodos de entrenamiento puedan extenderse a partidas de ajedrez contra jugadores humanos.

P: ¿Alguna vez has pensado en utilizar Redes Generativas Adversariales (GAN)?

David Silver: En cierto sentido, el juego personal es un proceso de confrontación. Cada iteración del resultado intenta encontrar la "estrategia inversa" de la versión anterior.

Destructores de rumores

Pregunta: Escuché que AlphaGo fue guiado para realizar entrenamiento en una dirección específica en las primeras etapas de desarrollo para abordar las debilidades mostradas en el juego. Ahora que sus capacidades han superado a las humanas, ¿se necesita otro mecanismo para lograr mayores avances? ¿Qué tipo de trabajo has hecho?

David Silver: De hecho, nunca hemos guiado a AlphaGo para resolver debilidades específicas. Siempre nos centramos en algoritmos básicos de aprendizaje automático y dejamos que AlphaGo aprenda a solucionar sus propias debilidades.

Por supuesto, no se puede ser 100% perfecto, por lo que siempre habrá defectos. En la práctica, necesitamos los métodos adecuados para garantizar que la formación no caiga en la trampa de la optimización local, pero nunca hemos utilizado el refuerzo artificial.

Acerca de DeepMind

P: Tengo algunas preguntas: ¿Cómo es trabajar en DeepMind? ¿Quiénes son los miembros del equipo AlphaGo? ¿Puedes presentarnos la distribución del trabajo del equipo AlphaGo? ¿Cuál es el próximo gran desafío?

David Silver: Se siente genial trabajar en DeepMind :) - Esto no es un anuncio de trabajo, pero me siento muy afortunado de poder hacer lo que amo aquí todos los días. También hay toneladas (¡demasiadas para mantenerte ocupado!)) de proyectos interesantes en los que participar.

Tenemos suerte de tener mucha gente estupenda trabajando en AlphaGo. Puede obtener información más detallada consultando la lista de autores correspondientes.

P: ¿Crees que los estudiantes universitarios pueden tener éxito en el campo de la inteligencia artificial?

Julian Schritweiss: Absolutamente. Sólo tengo una licenciatura en informática, un campo que cambia rápidamente. Creo que puedes aprender leyendo los últimos artículos y experimentos. Además, también es útil realizar una pasantía en una empresa que haya realizado proyectos de aprendizaje automático.

Acerca de la expansión de los algoritmos y otros proyectos

P: Cuando Hassabis pronunció un discurso en Cambridge en marzo de este año, dijo que uno de los objetivos futuros del proyecto AlphaGo es Explicar las redes neuronales. Mi pregunta es: ¿Qué progreso ha logrado AlphaGo en la estructura de la red neuronal, o la red neuronal sigue siendo una misteriosa caja negra para AlphaGo?

David Silver: La interpretabilidad es un tema muy interesante en todos nuestros proyectos, no solo en ALphaGo. Hay muchos equipos en Deepmind que exploran nuestro sistema de diferentes maneras.

Un equipo publicó recientemente una técnica de psicología cognitiva que intenta descifrar lo que sucede dentro de la red de emparejamiento, ¡y funciona realmente bien!

P: Estoy muy feliz de ver los buenos resultados de AlphaGo Zero. Uno de nuestros artículos de NIPS también mencionó la similitud en la eficiencia entre el aprendizaje profundo y los árboles de búsqueda, por lo que estaba particularmente interesado en el comportamiento durante procesos de capacitación más largos.

En el proceso de entrenamiento de AlphaGo, ¿cuál es el rendimiento relativo del algoritmo codicioso de búsqueda de árbol de Monte Carlo, el algoritmo codicioso de la red de políticas y el algoritmo codicioso de cambio de función de valor durante el proceso de entrenamiento? ¿Podría aplicarse este enfoque de autoaprendizaje a la reciente API de StarCraft 2?

David Silver: ¡Gracias por presentar su artículo! No puedo creer que este artículo se haya publicado cuando lo enviamos el 7 de abril. De hecho, es muy similar al componente político de nuestro algoritmo de aprendizaje (aunque también tenemos un componente numérico). Puede consultar nuestro enfoque y la discusión en Aprendizaje por refuerzo, y le alegrará ver que se utilizan enfoques similares en otros juegos.

Pregunta: ¿Por qué las primeras versiones de AlphaGo no intentaron descargar el juego ellas mismas? En otras palabras, AlphaGo también ha probado el juego automático antes, pero ¿el efecto no fue bueno?

Siento mucha curiosidad por el desarrollo y progreso de este campo. En comparación con la actualidad, ¿cuáles son los obstáculos al diseñar un AlphaGo con autoformación hace dos años? ¿Qué tipo de proceso de iteración sistemática ha experimentado la “intuición de aprendizaje automático” que vemos hoy?

David Silver: Crear un sistema que pueda aprender completamente por sí solo siempre ha sido un problema abierto para mejorar el aprendizaje. Nuestros intentos iniciales, incluidos muchos algoritmos similares que puedes encontrar, fueron bastante inestables. Hicimos muchos intentos y, al final, el algoritmo AlphaGo Zero fue el más eficaz y pareció resolver este problema específico.

P: ¿Cuándo crees que los robots podrán resolver eficazmente problemas de altura y tamaño del mundo real (por ejemplo, aprender a recoger basura de cualquier forma, tamaño y ubicación por sí solos)? ¿Es el enfoque del gradiente estratégico la clave para lograr este objetivo?

Julian Schrittwieser: Esto se debe principalmente a mejoras duales en la red valor/política, incluida una mejor formación y una mejor arquitectura. Consulte la Figura 4 para ver una comparación de diferentes arquitecturas de red.

Pregunta: Se dice que el consumo de energía de AlphaGo Master que derrotó a Ke Jie fue solo 1/10 del de AlphaGo Lee que derrotó a Lee Sedol. ¿Qué tipo de optimizaciones se han realizado?

Julian Schrittwieser: Esto se debe principalmente a mejoras duales en la red valor/política, incluida una mejor formación y una mejor arquitectura. Consulte la Figura 4 para ver una comparación de diferentes arquitecturas de red. ¿Estás seguro de que esta no es la respuesta a la última pregunta?

P: Usar o simular la memoria a largo plazo de Agent en el aprendizaje por refuerzo parece ser un gran obstáculo. De cara al futuro, ¿crees que podremos resolver este problema con nuevas formas de pensar? ¿O tenemos que esperar a que nuestra tecnología logre una súper red?

Julian Schrittwieser: Sí, la memoria a largo plazo puede ser un factor importante. Por ejemplo, en StarCraft, es posible que hayas realizado miles de movimientos, pero también debes recordar los exploradores que enviaste.

Creo que hay elementos interesantes (¡máquinas neuronales de Turing!), pero creo que todavía tenemos mucho margen de mejora en esta área.

P: David, vi el vídeo de tu discurso. Mencionó que el aprendizaje por refuerzo se puede utilizar en el comercio financiero. ¿Hay algún ejemplo del mundo real? ¿Cómo manejarías un evento de cisne negro (algo que nunca antes había sucedido)?

David Silver: Hay muy pocos artículos publicados sobre el aprendizaje por refuerzo de algoritmos financieros para el mundo real, pero vale la pena leer algunos artículos clásicos, como el escrito por Nevmyvaka y Kearns en 2006, y el por Moody y Safell El escrito en 2001.

P: Tú y Facebook estudiasteis casi al mismo tiempo. ¿Cuál es tu ventaja para llegar más rápido a un rendimiento de nivel maestro?

¿Cómo realizar machine learning o aprendizaje por refuerzo en zonas donde es imposible obtener tantos datos de entrenamiento como AlphaGo?

David _ Silver: Facebook presta más atención al aprendizaje supervisado y nosotros elegimos prestar más atención al aprendizaje por refuerzo porque creemos que AlphaGo eventualmente superará el conocimiento humano.

Nuestros resultados recientes en realidad muestran que los métodos de aprendizaje supervisado pueden sorprender a las personas, pero el aprendizaje por refuerzo es definitivamente la clave para ir mucho más allá del desempeño humano.