Publication:
Herramientas eficientes para el análisis masivo de datos ómicos

Loading...
Thumbnail Image
Official URL
Full text at PDC
Publication Date
2018-09-29
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad Complutense de Madrid
Citations
Google Scholar
Research Projects
Organizational Units
Journal Issue
Abstract
En los últimos años se han desarrollado técnicas en el campo de la biología que han revolucionado las áreas de la genómica y la proteómica. Estas técnicas, entre las que se encuentran la secuenciación masiva y la proteómica de Shotgun, nos están permitiendo un conocimiento mucho más profundo del funcionamiento de las células, pudiendo ver qué ARN mensajero y proteínas están presentes en un momento puntual de las mismas, además de conocer mejor algunos mecanismos de regulación. Con el desarrollo de estas tecnologías, se están generando más datos de los que es posible procesar en una cantidad razonable de tiempo. Es necesario el desarrollo de nuevas herramientas que manejen este tipo de datos de una forma eficiente, haciendo uso de técnicas de computación de altas prestaciones que incluyan el uso de granjas de computación, computación paralela y gestión de plataformas virtualizadas. En la presente tesis se pretende realizar un abordaje integral del análisis masivo de datos provenientes de estastécnicas con herramientas eficientes, empezando por el procesamiento de los datos en crudo y obteniendo información de más alto nivel sobre expresión de genes y proteínas, enriqueciéndola con información relacionada de bases de datos y ontologías de libre acceso, para finalmente generar informes que reflejen el funcionamiento celular asociado a toda esta información. También incluye el desarrollo de herramientas generadoras de hipótesis en el ámbito de la regulación génica, que sirvan a biólogos experimentalistas para el desarrollo de nuevos experimentos de validación. Este abordaje se ha concretado en el desarrollo de diferentes metodologías y herramientas. Primeramente se han desarrollado varios flujos de trabajo para análisis de RNA-Seq, Microarrays y proteómica de Shotgun de diferentes proyectos y bases de datos públicas tales como ENCODE, Human Proteome Project, Illumina Human Body Map o the Cancer Cell Line Encyclopedia, enfocados para realizar estudios proteogenómicos, permitiendo detectar con exactitud los genes expresados sin necesidad de un control, o mezclar datos transcriptómicos y proteómicos para poder realizar una mejor detección de proteínas...
In recent years, techniques in the field of biology that have revolutionized the areas of genomics and proteomics have been developed. These techniques, including high throughput sequencing and Shotgun proteomics, are allowing us a much deeper understanding of the cells' behavior, being able to see which messenger RNA and proteins are present on a certain moment, also allowing to know better some mechanisms of regulation. With the development of these technologies, more data than is possible to process in a reasonable amount of time is being generated. It is necessary to develop new tools that handle this type of data in an efficient way, making use of high performance computing techniques that include the use of computer clusters, parallel computing and management of virtualized platforms. The intention of this work is to carry out an integral approach to the analysis of the data coming from these techniques with efficient tools, starting with the processing of raw data and obtaining high level information on gene and protein expression, enriching it with related information of ontologies and free access databases in ordert to create reports that reflect the cellular behavior associated with all that information. It also includes the development of hypothesis-generating tools in the field of genetic regulation, which allows experimental biologists the development of new validation experiments. This approach has resulted in the development of different methodologies and tools. First, several workftows for the analysis of RNA-Seq, Microarrays and Shotgun proteomics of different projects and public databases such as ENCODE, Human Proteome Project, Illumina Human Body Map or Encyclopedia of Cancer Cell Line have been developed, focused on performing proteogenomic studies, allowing an accurate detection of expressed genes without the need of controls, or mixing transcriptomic and proteomic data to enable better protein detection...
Description
Tesis inédita de la Universidad Complutense de Madrid, Facultad de Informática, Departamento de Arquitectura de Computadores y Automática, leída el 21/12/2017.
Unesco subjects
Keywords
Citation
Collections