¿Cómo utilizar el "modelo prisionero" en economía para explicar la teoría de juegos?

En primer lugar, la generación de estrategias óptimas en los juegos

Antes de comenzar a estudiar la cooperación, Robert Axelrod estableció dos premisas: primero, todo el mundo es egoísta; segundo, no tiene poder para interferir en la toma de decisiones personales. En otras palabras, los individuos pueden tomar decisiones basadas enteramente en sus propios intereses. Bajo esta premisa, las cuestiones que deben estudiarse en cooperación son: primero, por qué la gente coopera; segundo, cuándo coopera la gente y cuándo no coopera; tercero, cómo hacer que otros cooperen con usted;

Hay muchos problemas con la cooperación en la práctica social. Por ejemplo, en las represalias arancelarias entre países, aumentar los aranceles sobre los productos de otros países ayudará a proteger la economía nacional. Sin embargo, aumentar los aranceles entre países aumentará los precios de los productos, perderá competitividad y dañará las ventajas complementarias del comercio internacional. En las contramedidas, dado que ambas partes persiguen la maximización de sus propios intereses, los intereses del grupo se ven perjudicados. La teoría de juegos describe este problema utilizando el famoso dilema del prisionero.

A y B representan cada uno a una persona, y sus elecciones son completamente indistinguibles. Si coopera, elija C, si no coopera, elija D. Si AB elige a C para cooperar, cada uno obtiene 3 puntos; si un lado elige C y el otro elige D, el que elige C obtiene 0 puntos y el que elige D obtiene 5 puntos. Si AB elige D, ambos lados obtienen 1 punto.

Evidentemente, el mejor resultado para el grupo es que ambos bandos elijan el C, con 3 puntos cada uno, * * * 6 puntos. Si uno elige C y el otro elige D, la puntuación total es de 5 puntos. Si ambas personas eligen D, obtendrán 2 puntos en total.

Los estudiosos de los juegos utilizan esta matriz para describir el conflicto entre la racionalidad individual y la racionalidad grupal: cuando todos persiguen la maximización de los intereses individuales, los intereses del grupo se ven perjudicados, que es el dilema del prisionero. En la matriz, para A, cuando el oponente elige C, obtiene 5 puntos por elegir D y solo 3 puntos por elegir C, cuando el oponente elige D, obtiene 1 punto por elegir D y 0 puntos por elegir C, entonces no; No importa si el oponente elige C o D, para A, D obtiene la mayor cantidad de puntos. Esta es una estrategia de ventaja unilateral. Cuando dos estrategias óptimas se encuentran, es decir, A y B eligen D, el resultado es 1 punto cada una. Este resultado no es óptimo en la matriz. El dilema es que cuando cada uno adopta su propia estrategia dominante, la solución es estable pero no óptima de Pareto. Este resultado refleja la contradicción entre la racionalidad individual y la racionalidad grupal. Matemáticamente hablando, esta matriz de decisión única no tiene una solución óptima.

Si el juego se juega varias veces, siempre que el jugador sepa el número de juegos, definitivamente adoptará la estrategia de traicionar al oponente la última vez. En este caso, no es necesario cooperar en todas las rondas. Entonces, en muchos juegos conocidos, nadie cooperará.

Si el juego se juega entre varias personas un número desconocido de veces, los jugadores se darán cuenta de que cuando continúen cooperando y lleguen a un entendimiento tácito, cada persona obtendrá 3 puntos, pero si continúan sin hacerlo. Coopere, todos siempre obtendrán 3 puntos. Obtenga 1 punto. De esta manera se revela la motivación para la cooperación. Para muchos juegos, los ingresos futuros deben descontarse mediante una tasa de descuento W mayor que los ingresos actuales. Cuanto mayor es W, más importantes son los ingresos futuros. Cuando el juego multijugador continúa y W es relativamente grande, es decir, cuando el futuro es lo suficientemente importante, la estrategia óptima está relacionada con las estrategias adoptadas por otros. Supongamos que la estrategia de alguien es cooperar por primera vez, y luego, mientras la otra parte no coopere una vez, nunca cooperará. Por supuesto, es mejor cooperar con tales contramedidas. Si alguien siempre coopera independientemente de la estrategia del oponente, entonces su estrategia no cooperativa siempre obtendrá la puntuación más alta. Para aquellos que siempre no cooperan, la única estrategia es adoptar una estrategia no cooperativa.

Axelrod realizó un experimento e invitó a muchas personas a participar en el juego. Las reglas de puntuación son las mismas que las de la matriz anterior y se desconoce cuándo terminará el juego. Pidió a cada concursante que escribiera la estrategia con la puntuación más alta en un programa de computadora, y luego hizo que los programas compitieran entre sí en una única competencia de todos contra todos para encontrar la estrategia con la puntuación más alta.

La primera ronda del juego involucró 14 programas, más el propio programa aleatorio de Axelrod (es decir, elegir cooperar o no cooperar con una probabilidad de 50), y se ejecutó 300 veces. El programa con la puntuación más alta fue "Tit for Tat", escrito por el académico canadiense Robb. La característica de este programa es que en el primer juego se adopta una estrategia cooperativa y cada paso posterior sigue la estrategia del oponente. Usted cooperó la última vez, yo cooperaré esta vez. Tú no cooperaste la última vez y yo tampoco cooperaré esta vez.

Axelrod también encontró que los programas con las puntuaciones más altas tenían tres características: primero, nunca traicionaron primero, es decir, "amables" segundo, querían vengar la traición de la otra parte y cooperaron todo el tiempo, que era "; molesto"; en tercer lugar, querían vengar la traición de la otra parte; si alguien te traiciona una vez, no puedes tomar represalias sin cesar. En el futuro, mientras otros cambien la cooperación, usted también deberá cooperar. Esto es "tolerancia".

Para verificar aún más la conclusión anterior, Ai decidió invitar a más personas a jugar nuevamente y anunciar los primeros resultados. La segunda vez se recopilaron 62 programas, más sus propios programas aleatorios, y se realizó otro concurso. El resultado es que el primer lugar sigue siendo "Ojo por ojo". La conclusión de Ai sobre este juego es: primero, el "ojo por ojo" sigue siendo la mejor estrategia. En segundo lugar, las tres características mencionadas anteriormente siguen siendo válidas, porque entre las 15 personas principales, solo el octavo programa de Harrington es "antipático", y entre las 15 personas inferiores, solo 1 siempre está junto con "amistoso". También se demostraron disforia y tolerancia. Además, una buena estrategia también debe tener una característica "clara" que el oponente pueda reconocer en tres o cinco pasos. Las contramedidas que son demasiado complejas pueden no ser necesariamente buenas. El "ojo por ojo" tiene buena claridad, lo que permite a la otra parte descubrir rápidamente el patrón y adoptar una actitud cooperativa.

En segundo lugar, el proceso y las reglas de cooperación

La estrategia de "ojo por ojo" obtuvo buenos resultados en un grupo estático. Entonces, en un grupo dinámico y en evolución, ¿pueden surgir, desarrollarse y sobrevivir tales colaboradores? ¿Evolucionarán los grupos hacia la cooperación o hacia la no cooperación? Si no todos cooperan al principio, ¿podrán seguir cooperando en el proceso de evolución? Para responder a estas preguntas, Ehrlich utilizó principios ecológicos para analizar la evolución de la cooperación.

Supongamos que el grupo estratégico formado por las contramedidas evoluciona de generación en generación. Las reglas de la evolución incluyen: primero, prueba y error. Cuando las personas se enfrentan a su entorno, al principio no saben qué hacer, así que intentan esto, prueba aquello, lo que sea que funcione bien. En segundo lugar, la genética. Si una persona es cooperativa, su descendencia tendrá más genes de cooperación. En tercer lugar, aprende. El proceso de competencia es el proceso de aprender unos de otros. Si la estrategia de "ojo por ojo" es buena, algunas personas están dispuestas a aprenderla. Con base en esta idea, Erlich diseñó un experimento, asumiendo que entre las 63 estrategias, quien obtuviera una puntuación más alta en la primera ronda tendría una mayor proporción en el grupo de la segunda ronda, y era una función positiva de su puntuación. De esta forma, la estructura de la población cambiará durante el proceso evolutivo y podremos ver en qué dirección está evolucionando la población.

Los resultados experimentales son muy interesantes. El ojo por el ojo representa inicialmente 1/63 de la población. Después de 1000 generaciones de evolución, la estructura se mantiene estable en un 24%. Además, algunos programas se han perdido durante la evolución. Vale la pena estudiar uno de los programas, y es el único programa "desagradable" de Harrington entre los 15 primeros originales. Su respuesta es cooperar primero. Cuando la otra parte ha estado cooperando, de repente se niega a cooperar. Si la otra parte toma represalias inmediatamente, se reanudará la cooperación. Si la otra parte aún coopera, continúe traicionando. El programa comenzó muy rápido, pero fue cuesta abajo cuando otros programas además de Tit for Tat comenzaron a desaparecer. Medido por el coeficiente de cooperación, el grupo se está volviendo cada vez más cooperativo.

Los experimentos evolutivos revelan una filosofía: el éxito de una estrategia debe basarse en el éxito de otra. En la estrategia "Toma por ojo" entre dos personas, es imposible puntuar más que la otra persona. Como mucho quedarán empatadas, pero su puntuación total será la más alta. La base sobre la que se sustenta es muy sólida porque permite que la otra parte obtenga una puntuación alta. Ese no es el caso del Proyecto Harrington. Cuando obtiene una puntuación alta, el otro lado obtiene una puntuación baja. Su éxito se basa en el fracaso de los demás y los perdedores siempre serán eliminados. Cuando se elimina a los perdedores, los ganadores que se aprovechan de los demás también serán eliminados.

Entonces, ¿puede sobrevivir el "ojo por ojo" entre un grupo de personas extremadamente egoístas que no son los autores? Ai descubrió que cuando se fijan la matriz de puntuación y el coeficiente de descuento futuro, se puede calcular que mientras haya 5 o más miembros del grupo "ojo por ojo", estos cooperadores pueden sobrevivir siempre que sus puntuaciones superen el total. puntuación promedio del grupo y cooperación El grupo crecerá cada vez más y eventualmente se extenderá a todo el grupo.

Cuando todos intentan obtener más de recursos limitados, los intereses locales y los intereses generales entran en conflicto. Los problemas demográficos, las crisis de recursos y la congestión del tráfico pueden explicarse mediante paradojas sociales. En estos problemas, la clave es formular reglas de juego mediante la investigación para controlar el comportamiento de todos.

Algunas de las conclusiones de Axelrod se pueden encontrar fácilmente en la cultura clásica y la tradición moral de China. La idea de "ojo por ojo" se refleja en "devolver un melocotón por un centavo" y "No ofenderé a los demás a menos que ellos me ofendan a mí". Pero estas cosas no son óptimas, porque el "ojo por ojo" es defectuoso en la vida social real, llena de aleatoriedad. En este sentido, hace miles de años, Confucio propuso una excelente estrategia correctiva de "devolver bondad con bondad y devolver bondad con bondad". El llamado "heterosexual" significa justicia, que es un "ojo por ojo" modificado que modifica el grado de venganza. Originalmente te iban a multar con 5 puntos, pero ahora solo te multan con 3 puntos. De esta manera, un juicio justo ha puesto fin a generaciones de venganza.

Pero algunas de las suposiciones y conclusiones de Ai sobre los jugadores hicieron que su investigación se desviara inevitablemente de la realidad. En primer lugar, el libro "La evolución de la cooperación" hace implícitamente una suposición importante: el juego entre individuos es completamente indistinguible. En los juegos reales, es imposible lograr la igualdad absoluta entre los jugadores. Por un lado, existen diferencias en la intensidad real de las contramedidas. Si ambas partes se traicionan, es posible que no obtengan 1 punto, pero el más fuerte obtiene 5 puntos y el débil obtiene 0 puntos. De esta forma, la venganza de los débiles no tiene sentido. Por otro lado, incluso si los dos bandos del juego están realmente igualados, un bando puede tener mentalidad de jugador, pensar que es más fuerte y adoptar una estrategia de traición para aprovecharse. La matriz de puntuación de Ai ignora esta situación. La mentalidad de este jugador ha desencadenado una gran cantidad de juegos de suma cero en la sociedad. Por lo tanto, el programa se puede mejorar aún más sobre esta base.

En segundo lugar, Ehrlich cree que la cooperación no requiere expectativas ni confianza. Aquí es donde a menudo se le cuestiona. Las contramedidas desarrollan sus propias tácticas basadas en las tácticas previas de su oponente, mientras que la cooperación requiere que los individuos reconozcan a aquellos que han conocido y recuerden la historia de sus interacciones para poder reaccionar, lo que implica un comportamiento "anticipativo". Cuando se trata de entornos de confrontación complejos, la confianza puede ser un vínculo indispensable para que ambas partes logren la cooperación. Sin embargo, todavía es necesario investigar cómo plasmar las expectativas y la confianza en los programas informáticos.

Por último, los juegos repetidos son difíciles de realizar plenamente en la realidad. La existencia de una gran cantidad de juegos únicos ha dado lugar a muchos comportamientos poco cooperativos. Además, después de ser traicionado por la otra parte, la parte que contraataca a menudo no tiene posibilidad ni poder para tomar represalias. Por ejemplo, incumplimiento de contrato durante la etapa de acumulación de capital y disuasión nuclear entre países. En este caso, si la sociedad quiere hacer posibles las transacciones y prevenir comportamientos no cooperativos, debe utilizar medios legales para reemplazar el "ojo por ojo" entre individuos con castigos legales y regular el comportamiento social. Ésta es una revelación importante de la investigación de Axelrod para la escuela institucional.

上篇: La búsqueda de la vida poética en prosa 下篇: ¿Dónde está la Escuela de Policía de Lianyungang?