Ayuda
Ir al contenido

Dialnet


Planificación óptima de movimiento y aprendizaje por refuerzo en vehículos móviles autónomos

  • Autores: Mariano Gómez Plaza
  • Directores de la Tesis: Sebastián Sánchez Prieto (dir. tes.), Tomás Martínez Marín (codir. tes.)
  • Lectura: En la Universidad de Alcalá ( España ) en 2009
  • Idioma: español
  • Tribunal Calificador de la Tesis: Daniel Meziat Luna (presid.), Miguel Angel Sotelo Vázquez (secret.), Pedro Gómez Vilda (voc.), Pedro José Zufiria Zatarain (voc.), Félix Monasterio-Huelin Maciá (voc.)
  • Materias:
  • Enlaces
  • Resumen
    • español

      El presente trabajo de investigación se ha centrado en la propuesta de un algoritmo, capaz de realizar una planificación óptima de movimiento en vehículos móviles autónomos, pasándose en técnicas de control óptimo en lazo cerrado. Estos vehículos se caracterizan por estar dotados de cuatro ruedas, con dirección delantera y tracción delantera o trasera y, fundamentalmente, por ser sistemas dinámicos no lineales en los cuales la planificación de movimiento y su control, son tareas complejas, debido a que se trata de sistemas no-holonómicos. Todos los estudios llevados a cabo para la puesta en práctica de esta planificación óptima se han realizado considerando como base teórica los conceptos de aprendizaje por refuerzo y espacio de estados celular. El nuevo algoritmo propuesto tiene la peculiaridad de ser muy robusto ante posibles cambios en el entorno o en la estructura física o mecánica del propio vehículo, de manera que la generación del controlador óptimo vendrá dada, una vez que se haya ejecutado previamente una fase de aprendizaje por la que estos cambios se habrán tenido en cuenta de forma implícita por el algoritmo. El aprendizaje está orientado a alcanzar un objetivo de acuerdo a un criterio de optimización (p.e. tiempo mínimo). El vehículo aprende de su propia experiencia, la dinámica y cinemática sin necesidad de disponer de modelos matemáticos. Además, otro aspecto del algoritmo que reduce drásticamente el tiempo de aprendizaje es su capacidad para extrapolar el conocimiento adquirido localmente en una zona del espacio, al resto del espacio sin necesidad de que el vehículo se mueva físicamente a todos los puntos de dicho espacio. Una vez que el aprendizaje concluye, la generación de trayectorias desde diversos orígenes para alcanzar el objetivo deseado se hace en lazo cerrado aplicando en cada momento las acciones de control óptimas dependiendo de las condiciones de estado del vehículo en dicho momento.

    • English

      This research work is focus on the proposal of an algorithm able to perform an optimal motion planning in two-wheel-drive (front or rear) and front steering autonomous mobile vehicles. The algorithm is based on optimal control techniques in closed loop applied to four-wheel vehicles. These vehicles are non-linear dynamic systems in which the motion planning and its control are difficult tasks due to they are non-holonomic systems. All studies done have been developed taking into account the reinforcement learning and cell state space concepts. Possible changes in the environment or in the physical or mechanical structure of the vehicle do not affect the new algorithm. The optimal controller will be generated when the learning stage has been previously performed and therefore, these changes have been implicitly taken into account. The learning is oriented to reach a specific goal from each origin, according to an optimization criterion (e.g. minimum time). The vehicle learns its kinematics and dynamics from its own experience. There is no need to have any kind of mathematical model of the system. Also, the algorithm is able to extend the local knowledge acquired in a specific zone of the state space to the rest of the space without the vehicle moving physically to those zones. Once the learning stage finishes, the planning is performed in closed loop applying the optimal control actions associated to the state of the vehicle in real time.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno