(1) Selección
A partir del nodo raíz, que es la situación de toma de decisiones R, seleccione un nodo T que sea la situación que más necesita expansión; R es el primer nodo a verificar. Si el nodo marcado tiene un movimiento M que no ha sido evaluado, entonces la nueva situación obtenida después de que el nodo marcado ejecuta M es lo que necesitamos para expandir T si se han evaluado todos los movimientos factibles en la situación marcada, use la fórmula ucb para; obtenga un movimiento factible con el valor máximo de ucb y verifique nuevamente la nueva situación generada por este movimiento. Si la situación verificada es una situación de juego en la que el juego ha terminado, el paso 4 se ejecuta directamente mediante comprobaciones repetidas; resultado final en la parte inferior del árbol. Verifique el caso C y el movimiento M no evaluado, y realice el paso 2.
(2) Expansión
Para la escena C que existe en la memoria en este momento, agregue un nodo secundario. Este nodo hijo se obtiene ejecutando el movimiento M en la situación C, que es t.
(3) Simulación
A partir de la situación t, ambas partes comienzan a llegar a un acuerdo al azar. Finalmente, se obtiene un resultado (ganancia/pérdida) para actualizar la tasa de ganancias del nodo T.
(4) Retropropagación
Después de que finaliza la simulación T, su nodo padre C y todos sus nodos ancestros actualizan la tasa de ganancias en secuencia. La tasa de ganancia de un nodo es la tasa de ganancia promedio de todos sus nodos secundarios. Comienza en T y se propaga de regreso al nodo raíz R, por lo que se actualizan las tasas de ganancia de todos los nodos en la ruta.