El número de genes humanos que codifican a proteínas dentro de las bases de datos (BD) de referencia humanos se ha estabilizado en un poco más de 20,000 genes en los últimos años. Principalmente como resultado de minuciosos esfuerzos de curación manual. Aunque las tres BD de referencia, Ensembl/GENCODE, RefSeq y UniProtKB, tienen un número similar de genes, no está claro cuántos de estos genes coinciden entre los tres conjuntos.
El empalme alternativo del ácido ribonucleico mensajero (ARN) es un proceso molecular fundamental que regula la expresión de genes eucariotas y puede generar una amplia gama de transcripciones de ARN. Aunque muchos miles de transcritos de empalme alternativamente se detectan de forma rutinaria en los estudios de RNA-seq1, los análisis de proteómica basados en espectrometría de masas identifican solo una pequeña fracción de isoformas alternativas. De hecho, los experimentos de proteómica sugieren que la mayoría de los genes tienen una única isoforma proteica. En esta tesis presentamos tres artículos sobre la descripción funcional de genes codificantes y de las isoformas proteicas principales y alternativas derivadas del empalme alternativo.
En la primera publicación, presentamos las actualizaciones de APPRIS. Algoritmo que selecciona una única isoforma proteica, la isoforma principal, como referencia para cada gen, en función de las características estructurales y funcionales de las proteínas y la información de la conservación entre especies. La evidencia experimental muestra que la isoforma principal APPRIS casi siempre coincide con la isoforma principal de la célula. En el artículo detallamos la expansión de las anotaciones para múltiples especies, la mejora de los métodos, y la creación de una fusión de genes basado en las tres BD de referencia. Además, proporciona una medida de fiabilidad para isoformas principales.
En el segundo artículo, analizamos genes humanos que codifican a proteínas en las tres BD de referencia: Ensembl/GENCODE, RefSeq y UniProtKB. Encontramos que uno de cada ocho de estos genes se clasifica de manera diferente en al menos uno de las BD de referencia. La evidencia de diversas fuentes sugiere que es poco probable que muchos de los 22,210 genes de los tres conjuntos codifiquen a proteínas funcionales.
En la publicación final, llevamos a cabo un nuevo análisis de un estudio proteómico a gran escala de tejidos humanos con el fin de determinar hasta qué punto se puede detectar el empalme alternativo específico de tejido. Encontramos diferencias significativas específicas de tejido en más de un tercio de los eventos. Las isoformas de proteínas alternativas eran particularmente abundantes en los tejidos nerviosos y musculares. Al contrastar la evidencia de proteómica con datos de transcriptómica, encontramos que más del 95% de los eventos específicos de tejidos que coinciden entre ambos análisis, evolucionaron hace más de 400 millones de años. Nuestros resultados sugieren que el empalme alternativo específico de tejido ha jugado un papel crucial en el desarrollo del cerebro y el corazón de los vertebrados.
The number of protein coding genes in the human reference gene sets has stabilized at slightly more than 20,000 genes in recent years, principally as a result of painstaking manual curation efforts. Although the three main gene sets, Ensembl/GENCODE, RefSeq, and UniProtKB, have similar numbers of genes, it is not clear how many of these genes coincide between the three sets.
Many researchers were surprised by the relatively low numbers of human coding genes and some have sought other explanations for an assumed human complexity such as alternative splicing. The alternative splicing of messenger Ribonucleic acid (RNA) is a fundamental molecular process that regulates eukaryotic gene expression and can generate a wide range of mature RNA transcripts. Many thousands of alternatively spliced transcripts are routinely detected in RNA-seq studies, although reliable large-scale mass spectrometry-based proteomics analyses identify only a small fraction of annotated alternative isoforms. Indeed, proteomics experiments strongly suggest that most genes have a single main protein isoform.
In this thesis, we present three papers on the functional description of coding genes, and of the principal and alternative protein isoforms derived from alternative splicing. In the first publication, we present the updates to the APPRIS Database. APPRIS selects a single protein isoform, the principal isoform, as the reference for each gene based on protein structural and functional features and information from cross-species conservation. Experimental evidence shows that the APPRIS principal isoform almost always coincides with the main cellular protein isoform. In the paper we detail the expansion of gene sets for multiple species, refinements in the core methods that make up the annotation pipeline and the merge of individual Ensembl/GENCODE, RefSeq, and UniProtKB reference gene sets. APPRIS now provides a measure of reliability for individual principal isoforms and updates with each release of the reference sets.
In the second paper, we analyse human protein-coding genes in the three main reference sets: Ensembl/GENCODE, RefSeq and UniProtKB. We find that one in eight of these genes are classified differently in at least one of the reference sets. Evidence from various sources suggests that many of the 22,210 genes in the union of the three sets are unlikely to code for functional proteins.
In the final publication, we carried out a reanalysis of a large-scale proteomics study of human tissues in order to determine to what extent tissue-specific alternative splicing can be detected at the protein level. We found evidence of significant tissue-specific differences across more than a third of the splice events that we interrogated. Tissue specific alternative protein forms were particularly abundant in nervous and muscle tissues. By contrasting the proteomics evidence with data from a large-scale transcriptomics analysis, we found that more than 95% of tissue specific events in which proteomics and RNA-seq analyses agree on tissue-specificity evolved over 400 million years ago. Our results suggest that tissue specific alternative splicing has played a crucial role in the development of the brain and the heart in vertebrates.
© 2001-2026 Fundación Dialnet · Todos los derechos reservados