Diseño e implementación de sistemas de computación de alto rendimiento para acelerar algoritmos biomédicos

Germán Retamosa de Ágreda

Ayuda

Diseño e implementación de sistemas de computación de alto rendimiento para acelerar algoritmos biomédicos

Autores: Germán Retamosa de Ágreda
Directores de la Tesis: Luís del Pedro (dir. tes.)
Lectura: En la Universidad Autónoma de Madrid ( España ) en 2017
Idioma: español
Tribunal Calificador de la Tesis: Javier Tamames de la Huerta (presid.), Francisco Javier Gómez Arribas (secret.), Mikel Izal Azcárate (voc.)
Programa de doctorado: Programa Oficial de Doctorado en Ingeniería Informática y de Telecomunicación
Materias:
Enlaces
- Tesis en acceso abierto en: Biblos-e Archivo
Resumen
- En la presente tesis se ha llevado a cabo una propuesta de diseño e implementación de un sistema de altas prestaciones de pre-filtrado de secuencias para proteínas, nucleótidos y metagenomas. Hasta la fecha de hoy, la información asociada a nuestro estilo de vida es cada vez mayor en volumen y con mayor relevancia. Son cada vez más los dispositivos que entran en escena con el fin de monitorizar todas nuestras actividades, tanto físicas como mentales, y llegar a niveles de diagnóstico jamás alcanzados, es lo que llamamos la era del big data. Dentro del ámbito de la bioinformática, los procesos de secuenciación genómica tradicionales han optado por técnicas de procesamiento basadas en programación dinámica, costosas en términos de tiempos de ejecución y utilización de recursos, por lo que no se corresponden con soluciones viables para las existentes tendencias de procesamiento basadas en la secuenciación masiva de datos. A razón de dicha incapacidad de los algoritmos tradicionales, numerosas líneas de investigación han sido creadas con el fin de acelerar y optimizar dichos algoritmos con sistemas de altas prestaciones, como por ejemplo FPGAs, GPUs o grandes centros de cálculo. Sin embargo, la mayoría de estas líneas poseen un denominador común, y es que todas ellas están basadas en la re-implementación del código fuente del algoritmo de referencia y su correspondiente optimización al entorno de altas prestaciones utilizado. Esta aproximación tiene una serie de penalizaciones no despreciables a tener en cuenta como que, tanto su tiempo de prototipado como su ciclo de vida de desarrollo iterativo son procesos pesados y demandantes de una gran cantidad de recursos y esfuerzos, su fuerte dependencia del algoritmo original y su vulnerabilidad ante cambios de versiones que afecten al código fuente y comportamiento del algoritmo.
  
  Nuestra propuesta es radicalmente opuesta ya que es independiente del algoritmo utilizado, por lo tanto, no requiere de la re-implementación del algoritmo y aprovecha toda la potencia proporcionada por las GPUs para filtrar la base de datos de secuencias acorde a una entrada concreta. De esta manera, el usuario final del sistema tendrá la posibilidad de reducir el espacio de búsqueda del algoritmo utilizado según la severidad del filtro y podrá alcanzar los resultados esperados en tiempos significativamente menores. Este sistema ha sido evaluado y probado en centros de investigación de referencia, nacional e internacional, como el Centro Nacional de Biotecnología (CNB-CSIC) y el Centro Superior de Investigación y Salud Pública de Valencia (CSISP) donde se evaluaron 20.000 secuencias de entrada procedentes de diferentes tipos de genomas, sesgados o no sesgados frente a bases de datos de referencia como GenBank. En todas las pruebas llevadas a cabo, se han alcanzado porcentajes de un 70% de precisión en el caso peor y un 100% en el caso mejor, y factores de aceleración hasta cinco veces mayor (5x) respecto al algoritmo de referencia. Además, todo el código fuente, documentación e instrucciones de instalación están disponibles en Github como dominio público y bajo licenciamiento MIT. Como resultado de la presente tesis hay que destacar su foco industrial orientado a la comercialización del sistema en entornos profesionales.
  
  Por consiguiente, se han llevado a cabo varios procesos de transferencia tecnológica con los centros de referencia mencionados, el Centro Nacional de Biotecnología (CNB-CSIC) y el Centro Superior de Investigación y Salud Pública de Valencia (CSISP), además de diferentes aportaciones como el desarrollo del sistema de almacenamiento distribuido del servicio de genómica del Parque Científico de Madrid y el sistema de visualización, extracción y tratamiento de grandes volúmenes de información utilizado en empresas multinacionales como BBVA, Correos o Telefónica. Todas estas aportaciones han contribuido en el diseño del producto comercial licenciado por Naudit High Performance Computing and Networking S.L. Desde el punto de vista académico, se han publicado 2 contribuciones en revista, una conferencia internacional de referencia y un simposio nacional.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: