Optimización Bayesiana no miope POMDP para procesos con restricciones de operación y presupuesto finito

José Luis Pitarch Pérez; Leopoldo Armesto Angel; Antonio Sala

Ayuda

Optimización Bayesiana no miope POMDP para procesos con restricciones de operación y presupuesto finito

Pitarch, José Luis ^[1] ; Armesto, Leopoldo ^[1] ; Sala, Antonio ^[1]
1. [1] Universidad Politécnica de Valencia
  
  Universidad Politécnica de Valencia
  
  Valencia, España
Localización: Revista iberoamericana de automática e informática industrial ( RIAI ), ISSN-e 1697-7920, Vol. 21, Nº. 4, 2024, págs. 328-338
Idioma: español
Títulos paralelos:
- POMPD non-myopic Bayesian optimisation for processes with operation constraints and a finite budget
Enlaces
- Texto completo
Resumen
- español
  Mejorar la toma de decisiones a partir de los resultados observados tras la experimentación es una tarea habitual en muchas aplicaciones, tanto a nivel de investigación en laboratorio como en procesos de producción industriales. Sin embargo, realizar experimentos suele acarrear un coste no despreciable, por lo que una excesiva exploración es perjudicial. La optimización bayesiana es una técnica muy utilizada en este contexto, decidiendo la siguiente experimentación en base a un modelo estadístico.No obstante, está técnica no tiene en cuenta explícitamente el coste real de realizar un experimento, ni si existe un presupuesto (o número de experimentos, tiempo, etc.) máximo. El problema de toma de decisiones bajo incertidumbre y presupuesto finito puede plantear como un Proceso de Decisión de Márkov Parcialmente observable (POMDP, por sus siglas en inglés). Este trabajo aborda el problema de optimización experimental sujeta a restricciones de operación con un enfoque POMDP, donde las posibles decisiones vienen proporcionadas por heurísticas de la optimización bayesiana, o de otra índole definida por el usuario. La estrategia consiste en construir un árbol de posibles escenarios partir del conocimiento (incierto) acerca del proceso/sistema aprendido a partir de experimentos previos. Dicho conocimiento se modela mediante procesos Gaussianos, que se actualizan con cada nueva observación. La evaluación sobre la mejor decisión a tomar se realiza mediante programación dinámica. El algoritmo desarrollado ha sido evaluado mediante comparación con otras opciones de la literatura en un banco de pruebas sintético, y para optimizar un proceso químico de producción por lotes.
- English
  Improving decision making from the observed results after experimentation is a usual task in many applications, from the research laboratory scale to industrial production systems. However, conducting experiments often takes a non-negligible cost. Consequently, excessive exploration is harmful. Bayesian optimization is a widely used technique in this context, deciding next experiment based on a statistical model. However, this technique does not explicitly account for the actual cost of the experiment, nor whether a limited budget (economic, number of experiments, time, etc.) exists. The problem of decision making under uncertainty and finite sample budget can be cast as a Partially Observable Markov Decision Process (POMDP). This work addresses the experimental optimization problem with operation constraints by a POMDP approach, where the possible actions to make are given by well-known Bayesian optimization heuristics, or any other defined by the user. The strategy consists in building a scenario tree from the (uncertain) knowledge about the system/process, learnt from prior experiments. Such a knowledge is modelled by Gaussian processes, which are updated with each new available observation. The evaluation on the best action to make is realized via dynamic programming. The developed algorithm has been evaluated by comparison with other options in the literature in a synthetic test bench, and to optimize a chemical batch production process.