Interpretación del artículo: Separación de estrategias y coincidencia de valores en el aprendizaje compensatorio multiagente

Tema: Descentralización de políticas y coincidencia de valores en el aprendizaje compensatorio multiagente.

Enlace del artículo: https://arxiv.org/pdf/1903.06592

Objeto de investigación: sistema colaborativo multiagente

Motivación de la investigación: investigación existente sobre The El trabajo del aprendizaje por refuerzo de múltiples agentes (MARL) es principalmente disfrutar de la información a través de un mecanismo de comentarios centralizado o comunicación entre agentes, mejorando así el efecto del aprendizaje. Pero estos trabajos generalmente no estudian cómo resolver el problema de la maldición de la dimensionalidad compartiendo información entre agentes.

Supongamos que el problema de múltiples agentes se puede descomponer en un problema de múltiples tareas de modo que cada agente solo pueda buscar dentro de un subconjunto de todo el espacio de estados en lugar de buscar dentro de todo el espacio de estados. La ventaja de esta suposición es que puede reducir en gran medida el espacio de búsqueda del sistema, acelerando así el aprendizaje.

Trabajo principal:

Con base en los supuestos anteriores, se propone un nuevo actor multiagente integrando el conocimiento de agentes homogéneos a través del método de refinamiento y algoritmo crítico de valor.

El llamado multiagente homogéneo es un agente cuyo espacio de estado y espacio de acción son iguales. Por ejemplo, los drones y los vehículos no tripulados son agentes homogéneos, mientras que los drones y los vehículos no tripulados son agentes multiagentes heterogéneos.

Antecedentes del problema:

En un sistema multiagente, los agentes actúan de forma independiente en el mismo entorno, pero al mismo tiempo también influyen en las decisiones de los demás. Por lo tanto, si la tecnología de aprendizaje por refuerzo de un solo agente se aplica directamente al aprendizaje de múltiples agentes, es decir, el llamado aprendizaje independiente, entonces el proceso de aprendizaje será inestable. Dado que el aprendizaje por refuerzo tradicional con un solo agente supone que los cambios en el entorno externo son estables, en un sistema de múltiples agentes, cualquier cambio en la estrategia de cualquier agente afectará el aprendizaje de otros agentes. Por lo tanto, los investigadores suelen adoptar una arquitectura de capacitación centralizada y ejecución distribuida para implementar MARL. Pero habrá un problema, es decir, cuando aumente el número de agentes, el espacio de estado y el espacio de acción de todo el sistema aumentarán exponencialmente, y el espacio de búsqueda de los agentes también se volverá particularmente grande.

Para cada agente, algunos estados no contribuyen a la solución de la política óptima, por lo que no es necesario buscar en todo el espacio de estados. Una búsqueda eficiente puede ayudar al agente a acortar el tiempo de entrenamiento, pero no existe un método general para resolver este problema entre los métodos existentes, lo cual es una de las razones por las que el número de agentes en la investigación MARL actual es limitado.

Solución:

Durante la capacitación, * * * disfrute de los datos de experiencia y otra información entre los agentes, y utilice y aprenda plenamente nuevas estrategias a través de la idea de la sublimación de políticas.

En primer lugar, se propone la sublimación de políticas para resolver el problema del aprendizaje por refuerzo multitarea (MTRL). Enlace del artículo: https://arxiv.org/pdf/1511.06295 Por lo tanto, este artículo primero considera el problema MARL de tarea única como un problema MTRL de agente único, de modo que podamos utilizar el método de destilación de políticas para encontrar el problema óptimo. política.

Pero ¿cómo entender este supuesto? Por ejemplo, la tarea de los tres agentes A, B y C es llegar a las ubicaciones designadas L1, L2 y L3 en el menor tiempo. Este es un problema MARL de tarea única. Ahora se considera el problema como un agente A que tiene la capacidad de llegar a L1, L2, L3 en el menor tiempo. Este es un problema de MTRL de agente único.

Detalles del algoritmo:

Debido al uso del refinamiento de políticas, este artículo utiliza una estrategia aleatoria. Para problemas de movimiento continuo, los autores extienden el algoritmo de crítica suave del actor de un solo agente a múltiples agentes. Al mismo tiempo, la salida del actor debe convertirse en una forma de distribución de probabilidad mediante la función softmax.

Sublimación de políticas:?

¿Cuál es la función de pérdida de la estrategia de destilación

? (1)

Tenga en cuenta que la fórmula (1) es una distribución de probabilidad, no la estrategia en sí. Sólo se muestrean variables del búfer de reproducción, no variables. Esto se debe a que el búfer de reproducción puede no ser óptimo; al atravesar todas las acciones en el espacio de acción directamente desde el búfer de reproducción, es más fácil encontrar la acción óptima. Después de cada extracción, todas las políticas de proxy se actualizan (actualización completa). De esta forma, los agentes y otros agentes pueden disfrutar de la información.

La ventaja de la destilación de políticas es que incluso si un determinado estado de un agente no se muestrea, pero otros agentes lo muestrean, entonces la información sobre este estado puede pasarse indirectamente a este agente a través de la destilación de políticas de otros agentes.

Coincidencia de valores:?

No basta con actualizar la estrategia simplemente perfeccionándola. Si se añade la destilación al aprendizaje de políticas y la función de valor se aprende utilizando métodos tradicionales, obviamente habrá una diferencia. Por tanto, también es necesario ajustar la función de valor.

Cabe señalar que para agentes multiagentes homogéneos con tareas cooperativas, sus estrategias óptimas son las mismas porque su espacio de estado y espacio de acción son consistentes y comparten una recompensa. Con base en esta premisa, el autor propone un método de coincidencia de valores para reducir el espacio de búsqueda.

En el entrenamiento centralizado tradicional, la entrada de la función de valor son las observaciones y acciones de todos los agentes, como la suma. El orden de estas entradas generalmente es fijo; por ejemplo, se cumplirá para la función de valor de estado. Sin embargo, según la configuración del artículo, el agente múltiple es homogéneo y * * * disfruta de una función de recompensa, por lo que el orden de entrada de la función de valor no afecta la salida de valor específico.

Por ejemplo, para los dos agentes en la imagen de arriba, se supone que la función de valor del estado A() se ha aprendido como; el estado B es la forma simétrica del estado A. Según la hipótesis En una tarea de cooperación de agentes homogénea, estas dos funciones de valor de los estados deben ser iguales, es decir. Se extiende al caso de agentes, satisfactoriamente

(2)

donde todas las permutaciones secuenciales se representan como un conjunto. De esta manera, una vez que se aprende la función de valor del estado y se utiliza como información de supervisión para entrenar la red de evaluación de coincidencia de valores, estarán disponibles diferentes combinaciones de valores de estado simétricos correspondientes. La separación de políticas y la comparación de valores de los críticos constituye DVM.

Para entrenar esta nueva función de valor (función de valor destilado), este artículo utiliza la función de pérdida de error cuadrático medio (MSE).

. ? (3)

Que representa los parámetros de la función de valor coincidente.

De manera similar a la estrategia de extracción, la función de valor coincidente puede representar el conocimiento en el espacio de estados sin atravesar todos los estados. Este artículo también señala que muchos métodos MARL utilizan la función de valor Q como criterio, siempre que el estado y la acción sean consistentes, el método anterior también es aplicable.

Actor-crítico suave de múltiples temas (SAC):

Todo el mundo está familiarizado con la crítica de actor (AC), entonces, ¿qué es la crítica de actor suave?

SAC apareció por primera vez en ICML2018 y el enlace del documento es http://proceedings.MLR.press/v80/haarnoja18b/haarnoja18b.pdf.

El objetivo de optimización de SAC no es solo maximizar la recompensa acumulativa esperada, sino también maximizar la entropía, lo que favorece el equilibrio del aprendizaje y la exploración de los agentes. Incluso si la selección de acciones es suficientemente aleatoria, el aprendizaje de la tarea está garantizado. El actor de SAC genera variables aleatorias, razón por la cual este artículo elige utilizar el marco SAC. Luego, el autor extendió SAC a multiagente, propuso MA-SAC y agregó el DVM mencionado anteriormente.

El artículo señala que la red de políticas se entrena utilizando el método de extracción de políticas, por lo que el resultado de su red participante es una distribución de probabilidad. Para algoritmos de políticas deterministas como MADDPG, la pérdida de KL no se puede calcular porque la red de políticas genera valores de acción continuos.

Este artículo aborda el problema del control de movimiento continuo. La función política genera una distribución gaussiana con una determinada media y varianza, y luego toma muestras de un valor de movimiento continuo de esta distribución gaussiana.

El flujo del algoritmo propuesto en este artículo es el siguiente:

Entorno experimental:

Resumen:

El método DVM propuesto en este El artículo se utiliza principalmente para el isomorfismo. Intercambio y transferencia de información entre múltiples agentes colaborativos. Al aprender la estrategia de destilación por separación y la función de valor de destilación, el problema de tarea única de múltiples agentes se trata como un problema de tareas múltiples de un solo agente. El autor cree que este método puede reducir efectivamente el espacio de búsqueda de estado del agente, acelerando así el aprendizaje. Incluso si un agente no ha encontrado ciertos estados, siempre que otros agentes los hayan encontrado. La estrategia de destilación puede integrar el conocimiento aprendido por otros agentes en una estrategia, logrando así el intercambio de conocimientos entre agentes.

Para el problema de que la pérdida de KL no se puede calcular para acciones continuas, el autor utiliza el marco MA-SAC para implementar MARL con el fin de continuar usando DVM para el aprendizaje.

上篇: 下篇: Al calcular la renta imponible de una empresa, ¿cuáles son las partidas que la ley fiscal estipula claramente que no se pueden deducir antes de impuestos?