Ayuda
Ir al contenido

Dialnet


Resumen de Associative learning for collective decision-making in dynamic environments

Gustavo Alonso Chica-Pedraza

  • español

    En las últimas décadas, el comportamiento animal se ha convertido en uno de los temas de estudio más atractivos en el campo académico. Esto se puede entender por su conexión con las teorías evolutivas, que emplean conceptos de selección natural que permiten a los organismos adaptarse mejor a su entorno, por lo tanto ayudándoles a sobrevivir y tener más descendencia. Teorías emergentes, como la inteligencia artificial y la teoría de juegos evolutivos (EGT), han centrado su atención en encontrar una manera de utilizar estos conceptos evolutivos para incorporarlos en aplicaciones de la vida real. Modelar el comportamiento animal implica la comprensión del aprendizaje, ya que los animales han demostrado responder a los estímulos, lo que significa que los animales aprenden de alguna manera a asociar acciones con resultados (recompensas o castigos). Algunos enfoques en este campo generalmente estudian el proceso de aprendizaje asociando animales a agentes, jugadores, o poblaciones.

    En este sentido, el aprendizaje por refuerzo tradicional (RL) es una herramienta útil cuando se trata de una estructura con un único agente. Sin embargo, en un sistema multiagente (MAS), esta herramienta no es suficiente, ya que los agentes en MAS tienen interferencia entre ellos, es decir, se debe considerar la interacción con los demás agentes. Adicionalmente, los entornos MAS no son estacionarios y no se garantiza la convergencia del algoritmo RL. Para hacer frente a estos escenarios, la EGT se suele utilizar como un mecanismo que utiliza una perspectiva de dinámica poblacional, en la que las aplicaciones implican el diseño de enfoques de ingeniería en red donde conceptos como aprendizaje, sistemas de control, estabilidad y dependencia de la información son temas relevantes. Los enfoques clásicos de la dinámica de poblaciones (por ejemplo, replicador, Smith y logit) necesitan información completa del sistema para encontrar el resultado que permita lograr el Equilibrio de Nash. Este paradigma se explica considerando que el proceso inmerso se realiza bajo el supuesto de que la población está bien mezclada, lo que limita los campos de aplicación donde se puede aplicar la teoría clásica. Los avances recientes en este campo han introducido un concepto relacionado con las poblaciones que no están bien mezcladas, que utilizan una estructura distribuida capaz de lidiar con gráficos incompletos (información no completa).

    Este trabajo tiene como objetivo encontrar una manera de lidiar con escenarios donde el nivel de incertidumbre es alto para el modelado distribuido. El objetivo principal es desarrollar un modelo para afrontar la pérdida de información en entornos complejos y dinámicos, donde el uso de cómputos paralelos pueda abordar la falta de información entre agentes, evitando problemas de control de esquemas centralizados. Para ello, se desarrolla una abstracción matemática de las ecuaciones dinámicas de Q-learning y se complementa con la introducción de una aproximación novedosa utilizando una perspectiva de juego poblacional. Las dinámicas obtenidas pueden entenderse como reglas de aprendizaje basadas en la entropía, y su comportamiento se implementa en aplicaciones en el contexto de juegos clásicos, problemas de optimización, redes inteligentes y sistemas de respuesta a la demanda. Los resultados muestran una interesante interconexión entre los mecanismos de selección-mutación de la Teoría de Juegos Evolutivos y la estructura de exploración-explotación de RL, lo que permite ver el proceso de aprendizaje en MAS desde otras perspectivas para comprenderlo y ajustarlo a escenarios más realistas. Los resultados también muestran que a pesar de utilizar información parcial, las dinámicas obtenidas comparten fuertes similitudes con los enfoques clásicos, hecho que puede ser evidenciado por la conservación de masas y la convergencia del Equilibrio de Nash.

  • English

    In the past few decades, animal behavior has become one of the most attractive subjects of study in the academic field. This can be understood due to its connection with evolutionary theories, which employ concepts of natural selection that allow organisms to better adapt to their environment, thus helping them to survive and have more offspring. Emergent theories, such as artificial intelligence and evolutionary game theory (EGT), have focused their attention on finding a way to use these evolutionary concepts to incorporate them into real-life applications. Modeling animal behavior implies the understanding of learning since animals have shown to respond to stimuli, which means that animals learn somehow to associate actions to outcomes (rewards or punishments). Some approaches in this field usually study the learning process by associating animals to agents, players, or populations.

    In this sense, traditional reinforcement learning (RL) is a useful tool when treating a single-agent framework. Nevertheless, on a multi-agent system (MAS), this tool could fall short, since the agents in a MAS have interference between them, that is, the feedback is not only about the agent but also for all agents in the MAS. In addition, when a multi-agent framework is treated, the environments are not stationary and the optimization and convergence of the RL algorithm are missing. To deal with these scenarios, EGT is usually used as a mechanism that uses a population dynamics perspective, in which applications imply the design of networked engineering approaches where concepts such as learning, control systems, stability, and information dependency are relevant issues. Classic approaches of population dynamics (e.g. replicator, Smith, and logit) need full information of the system to find the outcome that allows achieving the Nash Equilibrium.

    This paradigm is explained considering that the immersed process is done under the assumption that the population is well-mixed, which puts a limit on fields of application where classic theory can be applied. Recent advances in this field have introduced a concept related to non-well-mixed populations, which use a distributed structure able to deal with uncompleted graphs (non-full information).

    This work aims to find a way to deal with scenarios where the uncertainty level is high for distributed modeling. The main objective is to develop a model to tackle the loss of information in complex and dynamic environments, where the use of parallel computations may address the lack of information between agents, avoiding control problems of centralized schemes. For this purpose, a mathematical abstraction of the dynamics equations of Q-learning is developed and complemented by the introduction of a novel approximation using a population game perspective. The obtained dynamics can be understood as entropy-based learning rules, and their behavior is implemented in applications in the context of classic games, optimization problems, smart grids, and demand response systems. Results show an interesting interconnection between the mechanisms of the selection-mutation of the Evolutionary Game Theory and the exploration-exploitation structure from RL, which allows seeing the learning process in MAS from other perspectives to understand it and adjust it to more realistic scenarios. Results also show that despite using partial information, the obtained dynamics share strong similarities with classic approaches, a fact that can be evidenced by the mass conservation and the Nash Equilibrium convergence. (Text taken from source)


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus