On the dynamics of polymers and biomolecules through the use of machine learning algorithms

Claudia Borredon

Ayuda

On the dynamics of polymers and biomolecules through the use of machine learning algorithms

Autores: Claudia Borredon
Directores de la Tesis: Gustavo Ariel Schwartz Pomeraniec (dir. tes.), Luis Alejandro Miccio Stefancik (codir. tes.), Angel Alegría Loinaz (tut. tes.)
Lectura: En la Universidad del País Vasco - Euskal Herriko Unibertsitatea ( España ) en 2023
Idioma: inglés
Programa de doctorado: Programa de Doctorado en Física de Nanoestructuras y Materiales Avanzados/Physics of Nanostructures and Advanced Materials por la Universidad del País Vasco/Euskal Herriko Unibertsitatea
Materias:
- Física
Enlaces
- Tesis en acceso abierto en: ADDI
Resumen
- El diseño y desarrollo de nuevos materiales con propiedades mecánicas, químicas o fisicoquímicas específicas a menudo involucra procesos que demandan una considerable inversión de tiempo y dinero, entre otros recursos. Por otra parte, la caracterización de estos materiales se enfrenta a su vez a dificultades relacionadas con el proceso de síntesis, la preparación de muestras o con las condiciones experimentales requeridas para realizar las mediciones. A la hora de superar estos desafíos, el aprendizaje automático y las redes neuronales son herramientas de gran potencial predictivo, especialmente en el estudio de la relación entre la estructura y las propiedades (QSPR, por sus siglas en inglés). En este trabajo se aplican métodos QSPR a la predicción y al estudio de propiedades características de moléculas y polímeros, con foco en la precisión y la interpretabilidad de los resultados.
  
  El aprendizaje automático se refiere a la habilidad de un algoritmo computacional para aprender a partir de un conjunto de datos. Según la conceptualización de Mitchell, un programa de ordenador aprende de la experiencia E en relación con una tarea T y medidas de rendimiento P si su ejecución en las tareas de T, medida por P, mejora con la experiencia E. Aquí T se define como la manera en que el programa debe procesar una entrada dada. La métrica de rendimiento P se establece específicamente para evaluar la precisión del modelo en cumplir la tarea T, generalmente a través de la medición de un error. La experiencia E consiste en los datos proporcionados al algoritmo durante la fase de entrenamiento. En el marco de la presente Tesis, la experiencia está dada por una base de datos de estructuras químicas, la tarea es la predicción de la temperatura de transición vidria y la métrica de rendimiento es representada por el error porcentual sobre esa predicción. A la hora de entrenar, los datos se dividen principalmente en dos conjuntos: entrenamiento y prueba. El conjunto de entrenamiento es empleado en la fase de aprendizaje, y es quien permite que el algoritmo adquiera la información sobre las características de los datos y genere un modelo. Por otra parte, el conjunto de prueba consiste en ejemplos desconocidos para dicho modelo que se utilizan para evaluar la capacidad de generalización del mismo, es decir, su habilidad a la hora de procesar entradas inéditas. De esta manera, el aprendizaje automático implica una tarea de optimización en la que se busca que el rendimiento no solo sea óptimo en el conjunto de entrenamiento, sino también en el conjunto de prueba. El rendimiento del modelo también se ve influido por la cantidad de parámetros con los que se construye, si es supervisado o no supervisado, entre otros. Los algoritmos no supervisados procesan una base de datos cuyas características más relevantes son inferidas de la estructura del conjunto, mientras que los algoritmos supervisados trabajan con una base de datos acompañada de etiquetas para cada ejemplo. Ejemplos de algoritmos no supervisados son los de agrupamiento o “clustering”, mientras que la regresión lineal es un caso de algoritmo supervisado. En este trabajo, se emplean tanto algoritmos supervisados como no supervisados para desarrollar y validar modelos que permitan estudiar y predecir la temperatura de transición vítrea de un material y para indagar en las propiedades dinámicas de su estructura.
  
  Los algoritmos de aprendizaje automático, y en especial las redes neuronales (ANN, por sus siglas en inglés), han revolucionado el campo de la física de materiales al posibilitar la creación de modelos capaces de capturar relaciones complejas entre las estructuras moleculares y las propiedades físicas. Las ANNs son modelos informáticos inspirados en la estructura y el funcionamiento del cerebro humano. En términos sencillos, constan de capas interconectadas de neuronas artificiales que procesan y transforman los datos de entrada para generar salidas que se ajustan al mapeo no lineal de propiedades complejas. De esta manera, las redes aprenden a extraer características relevantes de dichas representaciones moleculares y a relacionarlas con las propiedades objetivo. Una de las ventajas primordiales de las ANN radica en su habilidad para lidiar con datos multidimensionales y no lineales, lo cual las convierte en herramientas idóneas para nuestro objetivo de capturar relaciones entre estructura y propiedades. Estos modelos tienen la capacidad de procesar y analizar con eficacia volúmenes considerables de información química, acelerando notablemente la concepción y el hallazgo de nuevos materiales con características específicas. Asimismo, el desarrollo orientado a la interpretabilidad de las ANN posibilita la adquisición de conocimiento directo sobre los factores químicos subyacentes que más influyen en las propiedades de interés. En este trabajo, por ejemplo, utilizo metodologías de agrupamiento y de análisis de componentes principales precisamente para entender como el algoritmo está procesando la información de la estructura química para enlazarla con el valor de la temperatura de transición vítrea. Es importante remarcar que la comprensión del algoritmo puede ser utilizada como guía para el diseño de nuevos compuestos con atributos específicos a cada tarea. No obstante, el rendimiento de los modelos QSPR basados en ANN depende de la calidad y representatividad de los datos de entrenamiento. La selección y depuración meticulosa del conjunto de datos son críticas para asegurar pronósticos precisos y fiables. Además, la interpretación de las ANN en el contexto de QSPR sigue siendo objeto de investigación, dado que descifrar las características moleculares específicas y las interacciones que aportan a los pronósticos de propiedades continúa siendo un desafío.
  
  En el ámbito de las propiedades macroscópicas de los materiales, la temperatura de transición vítrea (Tg) aparece como una de las más relevantes, tanto en el ámbito académico como en el industrial. La Tg denota la temperatura a la cual un material amorfo transita de un estado fluido a uno rígido y vítreo, motivo por el cual desempeña un papel crucial en la definición de las características de procesamiento de polímeros y otros materiales formadores de vidrio. No obstante, la comprensión de los mecanismos físicos subyacentes al fenómeno de la transición vítrea sigue hoy en día siendo un desafío, dado que este proceso está influido por una variedad de factores como la estructura molecular, la movilidad de las cadenas y las interacciones intermoleculares. Los enfoques tradicionales para estudiar la Tg de los materiales a menudo se basan en técnicas experimentales (que dependiendo de la preparación de la muestra y la técnica experimental pueden ser muy laboriosas) o en simulaciones computacionalmente intensivas basadas en primeros principios. En este contexto, los modelos QSPR representan una alternativa eficiente y complementaria en términos de tiempo y costo a los enfoques experimentales, agilizando la detección y el hallazgo de nuevos materiales con un comportamiento en particular.
  
  La Tg guarda además una estrecha relación con la dinámica de los materiales. En el caso de los polímeros, por ejemplo, su dinámica puede ser explorada a través de técnicas como la espectroscopía dieléctrica de banda ancha (BDS), la reología o los ensayos mecánico dinámicos (DMA). Estos métodos experimentales proporcionan información valiosa sobre el movimiento molecular y los procesos de relajación de distintas porciones de las estructuras moleculares en función de la temperatura. En este sentido, las ANN ofrecen una oportunidad única para capturar las relaciones entre las características estructurales y la Tg, brindando de esta manera una perspectiva indirecta de la dinámica de los materiales sin medirla explícitamente. Los descriptores moleculares empleados en los modelos QSPR contienen información implícita del movimiento molecular y la relajación, tales como la existencia de segmentos flexibles, el empaquetamiento molecular o las interacciones intermoleculares. En consecuencia, los valores de Tg pronosticados por los modelos QSPR pueden ser empleados como una estimación de la dinámica de los materiales. Por este motivo, en este trabajo se propone la utilización de modelos híbridos que fusionan ANNs con marcos teóricos como la ecuación de Langevin elástica colectiva no lineal (ECNLE, por sus siglas en inglés) para modelar la dinámica de los materiales. De esta manera, se utilizan ANNs para identificar correlaciones complejas y no lineales entre los descriptores moleculares y la Tg, la cual a su vez se emplea como valor de entrada para la teoría ECNLE, que estima la dinámica de relajación del material. Al incorporar la teoría ECNLE en el marco del modelado, el modelo híbrido puede brindar predicciones no solo para la Tg, sino también para la dinámica del material, como escalas de tiempo de relajación o viscosidad. En este trabajo se emplea el “Simplified Molecular Input-Line Entry System” (SMILES) para representar la estructura molecular de un compuesto mediante una cadena alfanumérica de caracteres. A través de esta representación de la estructura química como entrada, se investiga la modelización de la Tg mediante ANN de diferentes arquitecturas, así como también se profundiza en la interpretación de los resultados, la codificación en espacios multidimensionales y su agrupamiento. El trabajo se presenta a través de 3 publicaciones científicas en revistas indexadas internacionalmente. Es importante destacar que se trata de un estudio transversal, que involucra diferentes arquitecturas, propiedades, datasets y herramientas de optimización e interpretabilidad de los resultados, por lo que debe ser considerado en su conjunto antes que como desarrollos independientes.
  
  El primer artículo aborda el desarrollo de un modelo híbrido mediante el uso de una ANN para predecir la Tg y un modelo teórico para capturar la dinámica de formadores de vidrio moleculares. En particular, se aplica esta metodología para estimar la dinámica de la relajación α de los compuestos a través de la Tg y la teoría ECNLE. Para ello se emplea una arquitectura de red neuronal “fully connected” y una codificación estilo “one hot encoding” de las cadenas alfanuméricas obtenidas a través del SMILES, que permiten predicciones de la Tg con errores porcentuales promedio inferior al 8%. Este resultado es especialmente destacable dado que en muchos casos la naturaleza cinética de la medida experimental de Tg no permite establecer un único valor en la literatura, sino más bien un rango de temperaturas que depende de la velocidad de calentamiento-enfriamiento (entre otros factores), y por ende las incertezas no pueden reducirse con facilidad más allá de ese punto. La concordancia entre las predicciones y los resultados experimentales es notable y demuestra la validez de este enfoque híbrido para realizar inferencias sobre los materiales a partir de solo una representación de su estructura química. Además, este enfoque se puede emplear para comprender cómo las variaciones en la estructura molecular inducen cambios en la estimación de la Tg.
  
  El segundo artículo, es similar en términos de la predicción de la dinámica a partir de la Tg, pero se enfoca en la implementación de redes neuronales convolucionales aplicada a una familia de polímeros: los poliacrilatos atácticos. Haciendo uso de la capacidad de las CNN para detectar patrones en las estructuras químicas, se obtienen estimaciones de T_g que después se emplean como entradas para el modelo ECNLE. Con el fin de entrenar el modelo de CNN, se codifican los monómeros como matrices derivadas del SMILES. Es importante mencionar que a pesar de trabajar sobre cadenas de polímeros (y no sobre moléculas individuales), esta metodología produce errores porcentuales promedio en las predicciones de menos del 9%, lo que constituye un logro considerable ya que la red es entrenada únicamente a partir de la estructura del monómero, sin añadir ningún tipo de información física adicional. Posteriormente, se integran estos resultados con la teoría ECNLE para obtener estimaciones sobre la dinámica de los polímeros. Esta modalidad híbrida que aprovecha las CNN podría abrir nuevos caminos en la creación de materiales poliméricos, permitiendo una aproximación significativa a la dinámica de los compuestos exclusivamente a partir de la estructura del monómero.
  
  En el tercer artículo, se estudia el proceso por el cual las redes neuronales recurrentes pueden modelar la física detrás del proceso de transición vítrea. En esta instancia, el SMILES se codifica con una codificación cardinal y se emplean neuronas bidireccionales de memoria a largo plazo (BiLSTM por sus siglas en ingles). Estas neuronas son especialmente ventajosas ya que analizan la secuencia proporcionada tanto de izquierda a derecha como de derecha a izquierda, facilitando la identificación de patrones significativos en la misma. El error porcentual promedio en este caso es inferior al 9%. Luego, se demuestra mediante el Análisis de Componentes Principales (PCA) que la red es capaz de reconocer y seguir características en la estructura química que influyen en el valor de la Tg. Se aplica el algoritmo de clusterización Fuzzy-C a la última capa oculta de la red para evaluar su capacidad de distinguir entre diversas estructuras químicas. Finalmente, se emplea la red neuronal para predecir los valores de Tg de aminoácidos esenciales y un péptido corto (3-lisina), la mayoría de gran dificultad para su medida. En el caso de aquellos con valores experimentales, se constata que los aminoácidos que se encuentran más cercanos al intervalo de confianza de la red, son efectivamente predichos con mayor precisión que aquellos que están más alejados del intervalo. De esta manera, se concluye que es viable emplear las ANN como un laboratorio virtual para explorar el impacto de la estructura molecular en la Tg.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: