La gente generalmente reconoce la relación restrictiva entre "piedra, papel, tijera". Las características de "imparcialidad + aleatoriedad" lo convierten no sólo en un minijuego animado, sino también en un medio relativamente justo para resolver problemas. Se utiliza ampliamente para resolver diferencias, decidir el orden o determinar la propiedad.
No hace falta decir que cuando se trata de tareas domésticas, como quién lava los platos, trapea el piso y cocina, la propia "disposición a aceptar la derrota" de Guessing puede mantener efectivamente la armonía familiar y puede considerarse una ventaja. -llamar al mediador de relaciones familiares.
En opinión de la mayoría de la gente, adivinar es un evento aleatorio y la probabilidad de que los jugadores ganen debería ser la misma, constante en un tercio, pero puede que este no sea el caso.
Recientemente, el equipo de investigación del profesor He Sailing de la Universidad de Zhejiang desarrolló un modelo de inteligencia artificial basado en la cadena de Markov específicamente para jugar juegos de adivinanzas. Después de 300 rondas de combate con 52 jugadores humanos, la IA derrotó al 95% de los jugadores.
Figura | Cambios en el número de victorias netas del modelo de IA
Para los jugadores humanos, la regla es +2 puntos por victoria, +1 punto por empate, y no se pierden puntos. Antes de la batalla contra la IA, los participantes sabían que ganar daría como resultado una recompensa monetaria y que cuanto mayor fuera la puntuación total, más dinero ganarían. Por lo tanto, la probabilidad de que los jugadores lo dejen ir deliberadamente o elijan al azar es extremadamente baja.
Aun así, la IA aún venció a los humanos. En la contienda más desequilibrada, Ai ganó 198 veces, empató 55 veces y perdió sólo 47 veces, con una tasa de victorias cuatro veces mayor que la de sus oponentes humanos. Todos los datos brutos detallados del juego para las 15600 rondas se proporcionan en la información complementaria del artículo (consulte las referencias para obtener más detalles).
Si las adivinanzas se basan realmente en la probabilidad aleatoria, entonces, estadísticamente hablando, la probabilidad de que la IA obtenga una ventaja tan grande después de 15.600 rondas es muy baja.
Esencialmente, adivinar es un problema de juego, y detrás de ello hay un equilibrio clásico de Nash. Los hábitos, la cognición, las estrategias y los cambios de táctica de cada individuo afectarán la tasa de ganancia real. Por ejemplo, si estás familiarizado con tu oponente, es posible que sepas que a menudo juega papel, por lo que puedes usar tijeras con más frecuencia para sujetarlo.
El modelo de IA propuesto por el profesor He Sailing de la Universidad de Zhejiang también utiliza un método similar, lo que demuestra que adivinar tiene estrategias ganadoras a largo plazo para diferentes individuos, lo que puede mejorar efectivamente la tasa de ganancias.
Este modelo de IA se basa en el diseño de una cadena de Markov de orden N. Tiene memoria y puede retroceder hasta N estados históricos y utilizarlos.
Para hacer frente a las diferentes personalidades y estrategias de los jugadores humanos en el combate real, el equipo de investigación también inventó un modelo de IA múltiple.
“Es difícil construir un modelo único que funcione para todos, por lo que decidimos combinar modelos únicos para que puedan diferenciarse y adaptarse a estrategias competitivas más diferentes”, explican los investigadores en el artículo.
En el primer conjunto de modelos multi-IA para humanos, pusieron de 1 a 5 cadenas de Markov, es decir, 5 modelos de IA independientes, haciendo referencia a las 1-5 acciones anteriores respectivamente. Multi-IA se refiere a las decisiones de cada uno de los cinco modelos de IA en su conjunto. En cuanto a cuál elegir, depende de su desempeño en las últimas cinco ocasiones.
Las "últimas 5 veces" aquí se definen como un súper parámetro llamado distancia focal, que se puede ajustar según la situación para lograr una mayor optimización. En el segundo conjunto de modelos de IA múltiple para humanos, este parámetro se estableció en 10.
Figura | Lógica de toma de decisiones de múltiples modelos de inteligencia artificial
Por ejemplo, cada modelo de cadena de Markov de orden N es como un estratega, cada uno con diferentes criterios de toma de decisiones. El modo multi-IA es un comandante y un grupo de expertos compuesto por muchos asesores militares. Al tomar decisiones, cada estratega presentará sus propias sugerencias de boxeo y el comandante adoptará las sugerencias de la persona con la puntuación general más alta en función de su desempeño en los últimos tiempos (duración del enfoque) para mejorar la tasa de victorias a largo plazo.
Si los jugadores humanos ganan continuamente, se pedirá a Multi-AI que elija mejores soluciones de otros modelos de IA. Si los jugadores humanos fallan continuamente, es probable que cambien sus estrategias o rompan las reglas de control anteriores, y luego la IA múltiple puede ajustarse en consecuencia.
Los resultados finales del experimento social reflejan la validez de esta idea. De los 52 voluntarios, menos de 5 derrotaron a Ai. Muchas personas estaban por delante en las primeras 20-50 rondas, pero luego fueron atrapadas por la IA y perdieron.
La tasa de victorias de aquellos que vencieron a la IA es sólo ligeramente mayor y la diferencia no es grande.
Vale la pena mencionar que al desarrollar el algoritmo detrás del modelo de IA, el equipo de investigación leyó los resultados de la investigación de otro equipo de la Universidad de Zhejiang hace 6 años, pero utilizó diferentes estrategias de juego.
En comparación con investigaciones estadísticas anteriores sobre los datos de todos los jugadores, el modelo de IA múltiple aquí pone más énfasis en el control oportuno de las diferencias de personalidad y las estrategias de golpe de diferentes jugadores, y en elegir la estrategia de juego más adecuada. en este momento.
En mayo de 2014, varios medios de comunicación informaron de los resultados de una investigación científica sobre el juego "piedra, papel y tijera".
En realidad no. Esta investigación también fue nombrada uno de los mejores resultados de 2014 por MIT Technology Review (preimpresión).
Figura | Informe MIT Technology Review 2014
Este artículo revela que existen diferentes patrones de comportamiento detrás del juego de adivinanzas. Por ejemplo, los ganadores suelen hacer los mismos gestos en la siguiente ronda, mientras que los perdedores tienden a cambiar. La gente está más dispuesta a tirar piedras y demás. Pero el propósito más profundo es explorar si el equilibrio de Nash se establece en juegos reales, estudiar el marco del modelo de juego en la realidad y analizar los fenómenos del macrociclo y los fundamentos del microcomportamiento en los juegos. Las teorías básicas utilizadas en este estudio cubren muchos campos como la teoría de juegos, la psicología y la neurociencia.
Del mismo modo, la última investigación de "piedra, papel y tijera" de 2020 da como resultado no solo una IA de adivinanzas muy poderosa, sino también un analista de modelos de control y equilibrio de ciclos muy poderoso. Se espera que en el futuro se amplíe a otros escenarios de juego, como predecir los próximos movimientos de los competidores, planificar estrategias de campaña más efectivas o formular planes de precios más favorables.
"(Descubrimos) que, de hecho, existen patrones regulares en el comportamiento competitivo humano que pueden explotarse mediante el uso de modelos adecuadamente simples", concluyeron los investigadores en su artículo. "Esperamos que el estudio de los patrones de comportamiento competitivo y cómo explotarlos nos permita modelar, predecir y adaptarnos mejor a diferentes patrones de competencia".