Ayuda
Ir al contenido

Dialnet


Resumen de Diseño paralelo de algoritmo de aprendizaje por refuerzo para entornos big data

Jacinto Rivero Hernández, Jimmy Linares Lagarto, Antonio Lamazares Fernández, Lester Guerra Denis, Humberto Díaz Pando

  • español

    El aprendizaje por refuerzo es una forma de aprendizaje basado en la prueba y error. Este tipo de aprendizaje se aplica a problemas complejos que requieren en la actualidad procesar grandes volúmenes de datos. Algunas de estos problemas sonadministración de recursos, problemas de planificación, control de tráfico, robótica, detección de intrusos, control de sistemas energéticos, detección de fraude en banca online, etc.Los algoritmos de aprendizaje por refuerzo tradicionales no están preparados para tratar conentornos big data, desde el enfoque de un único agente. Aprovechando las capacidades de computo de los sistemas multicomputadorse diseñó una variante del algoritmo Q-Learningenfocada a sistemas multiagentes. Luego con ambas variantes se realizó un experimento para validar que la solución acelera el proceso de aprendizaje basado en la cantidad de iteraciones que tardan las soluciones en completar un episodio. Finalmente se valida la solución a partir de la aplicación de una prueba estadística con los resultados obtenidos.

  • English

    Reinforcement learning is a kind of learning based on trial and error. This kind of learning is applied to complexproblems that requires to process big data nowadays. Some of these problemsare resources management, scheduling problems, traffic control, robotics, intrusion detection systems, energy systems, fraud in online banking, etc. Traditional reinforcement learning algorithms are not prepared to interact with big data environments, from an only agent approach. We designed a Q-Learning variant for multi-agent system that exploits the computation capabilitiesof multi-computer systems. After that, we carry out an experiment with both variantsto validatethat the solutionimproves the learning process speed, based on the iteration quantity that delaysto finish an episode. Finally, thesolution is validated applying a statistic test with the obtained results.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus