[1]
;
Jiménez-Hernández, Brandom J.
[1]
;
Thenozhi, Suresh
[2]
;
Jiménez-Betancourt, Ramón
[1]
;
Gadi, Suresh K.
[1]
México
México
En este artículo se aborda el control de estabilización de un péndulo invertido con rueda inercial mediante el diseño de dosenfoques de control. Por un lado, se implementa un controlador convencional que utiliza el Regulador Cuadrático Lineal (LQR,por sus siglas en inglés,Linear Quadratic Regulator), y por otro lado, se propone como alternativa no convencional que emplea un controlador basado en aprendizaje por refuerzo (RL, por sus siglas en inglés,Reinforcement Learning). Se presenta el diseño mecánico, el modelo matemático y la identificación paramétrica de una plataforma experimental de bajo costo desarrollada paravalidar los controladores. Además, se diseña un observador de estado utilizando el método de Sylvester para estimar las veloci-dades del péndulo y de la rueda, necesarias para ambos controladores. El controlador RL utiliza un agente actor-crítico entrenado mediante el algoritmo DDPG (por sus siglas en inglés,Deep Deterministic Policy Gradient), basado en el modelo matemático del sistema. Finalmente, se comparan los desempeños de ambos controladores a través de resultados experimentales, concluyendo que el controlador RL logra un menor error en estado estacionario, mientras que el LQR exhibe mejor respuesta transitoria.
In this article, the stabilization control of an inverted pendulum with an inertia wheel is addressed through the design of twocontrol approaches. On one hand, a conventional controller based on the LQR is implemented, and on the other, a non-conventionalalternative is proposed using a RL-based controller. The mechanical design, mathematical modeling, and parameter identificationof a low-cost experimental platform developed to validate the controllers are presented. Additionally, a state observer is designedusing the Sylvester method to estimate the velocities of the pendulum and the wheel, which are necessary for both controllers. TheRL controller employs an actor-critic agent trained with the DDPG algorithm based on the system’s mathematical model. Finally,the performance of both controllers is compared through experimental results, demonstrating that the RL controller achieves lowersteady-state error, while the LQR exhibits better transient response.
© 2001-2026 Fundación Dialnet · Todos los derechos reservados