Ayuda
Ir al contenido

Dialnet


Metilación diferencial en el genoma humano y su asociación con la transcripción

  • Autores: Ricardo Lebrón Aguilar
  • Directores de la Tesis: José Lutgardo Oliver Jiménez (dir. tes.), Michael Hackenberg (codir. tes.)
  • Lectura: En la Universidad de Granada ( España ) en 2019
  • Idioma: español
  • Tribunal Calificador de la Tesis: Francisco Perfectti Álvarez (presid.), Inmaculada López Flores (secret.), Pedro A. Bernaola Galván (voc.), Pedro María Carmona Sáez (voc.), Francisca Martinez Real (voc.)
  • Programa de doctorado: Programa de Doctorado en Biología Fundamental y de Sistemas por la Universidad de Granada
  • Materias:
  • Enlaces
    • Tesis en acceso abierto en: DIGIBUG
  • Resumen
    • español

      Resumen:

      Un ser humano se compone de más de 400 tipos celulares, los cuales difieren en el conjunto específico de genes que transcriben, pese a tener la misma secuencia genómica. Las diferencias entre tipos celulares radican en la información epigenética específica que acompaña al genoma y en los factores de transcripción presentes en la célula.

      En células humanas adultas, la metilación de la citosina ocurre fundamentalmente en sitios CpG y es probablemente la marca epigenética más importante, ya que contribuye a la regulación de la transcripción, se mantiene estable a lo largo del linaje celular y se modifica durante el establecimiento del destino celular. Según el paradigma tradicional, la metilación en el promotor está asociada con la represión de la transcripción, si bien existen casos en los que se asocia con la activación de la transcripción o en los que la transcripción es independiente de la metilación. Por otra parte, el efecto de la metilación sobre la regulación de la transcripción no se limita a los promotores, sino que otras regiones como los potenciadores y el cuerpo génico también están implicadas.

      Desde hace más de una década, es posible detectar el nivel de metilación de cada citosina del genoma, gracias a la aparición de una técnica de secuenciación masiva conocida como Whole-Genome Bisulfite Sequencing (WGBS). Sin embargo, existen fuentes de error que afectan a la fiabilidad de los resultados obtenidos, provocando detecciones erróneas en el nivel de metilación de algunas citosinas e incluso pérdidas de información en ciertas regiones. Debido a estos problemas, muchos investigadores optan por promediar los niveles de metilación de los sitios CpG dentro de las regiones de interés, suponiendo que los errores se compensarán entre sí y sacrificando la alta resolución que ofrece esta técnica.

      Sin embargo, la metilación promedio de una región no siempre es relevante e incluso puede llevar a conclusiones erróneas. Se ha descrito recientemente que solo el 16,6% de los sitios CpG en promotores ejercen un efecto sobre la transcripción cuando cambia su metilación. Esto pone de manifiesto la necesidad de desarrollar métodos que permitan una detección lo más fiable posible de los niveles de metilación de cada citosina.

      Se estableció como primer objetivo de esta Tesis Doctoral diseñar e implementar un protocolo de obtención de mapas de metilación, a partir de lecturas de WGBS, para intentar resolver todos los problemas conocidos: i) eliminando posiciones con baja calidad o que se han introducido durante la preparación de la biblioteca, así como lecturas duplicadas, ii) corrigiendo problemas derivados del alineamiento de las lecturas, iii) descartando posiciones y lecturas afectadas por sesgos en la metilación y iv) distinguiendo entre sustituciones C/T y citosinas no metiladas.

      Durante el desarrollo de este protocolo, se descubrió un tipo de sesgo ocasionado por el uso de nuevos modelos de ensamblado genómico. Las dos últimas versiones del ensamblado del genoma humano incluyen haplotipos alternativos, que tratan de recoger las variaciones estructurales y de secuencia de distintas poblaciones o etnias humanas, para evitar que las lecturas procedentes de estos haplotipos alineen incorrectamente en otras regiones del genoma. Sin embargo, no se había evaluado si esta inclusión podría acarrear algún problema.

      En esta Tesis Doctoral, se describe por primera vez que el uso de los nuevos modelos de ensamblado provoca la pérdida de lecturas procedentes de loci polimórficos, como consecuencia de un incremento en el porcentaje de lecturas con alineamiento ambiguo. Para recuperar estas lecturas y asignarlas al ensamblado consenso, se diseñó una estrategia de alineamiento en dos etapas: i) todas las lecturas se enfrentan al ensamblado completo y ii) aquellas cuyo alineamiento ha resultado ambiguo durante la primera etapa se enfrentan a una versión del ensamblado sin haplotipos alternativos. Finalmente, se reúnen las lecturas con alineamiento único procedentes de ambos alineamientos, las cuales se utilizarán en posteriores etapas del protocolo.

      Una vez el protocolo estuvo maduro, se decidió implementarlo como un programa de código abierto, que recibió el nombre de MethFlow. El flujo de trabajo de este programa parte de lecturas de WGBS en formato FASTQ y finaliza con la obtención de mapas de metilación, atravesando por diversas etapas de tratamiento de sesgos y contaminaciones en las que se utilizan programas de terceros combinados con código propio. Las etapas más importantes son el alineamiento en dos etapas, en la que se utiliza Bismark siguiendo la estrategia antes descrita, y la detección de los niveles de metilación a partir de los alineamientos corregidos, en la que se utiliza MethylExtract por ser capaz de distinguir sustituciones C/T de citosinas no-metiladas.

      Uno de los mayores problemas a los que se enfrenta hoy en día la comunidad científica es la falta de reproducibilidad de los resultados. Para garantizar esta reproducibilidad, la arquitectura de MethFlow se diseñó con base en: i) contenedores generados a partir de un fichero de configuración, en el que se indica la versión de cada programa, su proceso de instalación y de configuración, y ii) un sofisticado framework para pipelines complejas, que ofrece un control y un registro exhaustivo de los procesos ejecutados. Por último, se dotó a MethFlow de una estructura modular, de manera que más tarde se pudieran añadir módulos que desempeñen tareas relacionadas, como analizar cambios en la metilación o su asociación con la transcripción.

      Una vez se dispuso de una herramienta adecuada para estudiar los niveles de metilación de citosinas individuales, se planteó la hipótesis de que, dependiendo del contexto genómico en que se produzca y del tipo de factores de transcripción que intervengan, la metilación puede contribuir a la regulación positiva o negativa de la transcripción o no tener efecto. Para poner a prueba esta hipótesis fue necesario: i) obtener una colección de mapas de metilación humanos que recogiese el mayor número posible de tipos celulares y de individuos, ii) caracterizar las diferencias de metilación debidas al tipo celular y al individuo y iii) estudiar la asociación con la transcripción de los cambios de metilación en sitios CpG individuales y su posible impacto sobre elementos reguladores de la transcripción.

      Los proyectos Roadmap Epigenomics, ENCODE y Enhancing GTEx disponen de conjuntos públicos de lecturas de WGBS para un amplio abanico de muestras humanas. Utilizando MethFlow, se obtuvieron los mapas de metilación para 86 muestras humanas, procedentes de 52 tipos celulares de 29 individuos. De 51 de las 86 muestras se obtuvieron también los perfiles de transcripción a través de ENCODE DATA. Estos mapas de metilación y perfiles de transcripción resultaron fundamentales para caracterizar los cambios de metilación en el genoma humano y su asociación con la transcripción.

      Cada tipo celular posee un patrón de metilación característico, en parte heredado de la célula madre que le precede en su linaje y en parte modificado durante el proceso de diferenciación celular. De igual manera, un mismo tipo celular puede presentar ciertas diferencias de metilación entre individuos debido a factores genéticos y ambientales. Cabe esperar que ambos tipos de variabilidad en la metilación tengan distintas implicaciones biológicas.

      Para estudiar la variabilidad de la metilación, se decidió seguir una estrategia de comparación de las muestras por pares y posteriormente seleccionar aquellos cambios de metilación que fuesen característicos del tipo celular o del individuo. Se desarrolló un método de detección de CpGs diferencialmente metilados (DMCs) basado en el test exacto de Fisher y se incorporó a MethFlow como módulo. A continuación, se definieron dos tipos de DMCs: i) DMCs intra-individuales, cuya metilación varía entre diferentes tipos celulares de un mismo individuo, y ii) DMCs inter-individuales, cuya metilación varía entre individuos para un tipo celular dado. Una vez obtenidos tantos conjuntos de DMCs como parejas fue posible formar siguiendo estas dos definiciones, se definieron sendos conjuntos estrictos de DMCs intra-individuales y DMCs inter-individuales: i) para cada muestra, se seleccionaron aquellos DMCs comunes a todas sus comparaciones por pares (intra-individuales o inter-individuales, según proceda) y ii) se reunieron en un único conjunto todos los DMCs seleccionados.

      A continuación, fue necesario diseñar un método para estudiar la riqueza en DMCs de un conjunto de elementos genómicos dado. Puesto que la distribución de los sitios CpG en el genoma no es aleatoria, se definió la riqueza como el cociente entre el porcentaje de sitios CpG que son DMCs dentro del conjunto de elementos genómicos y el porcentaje de sitios CpG que son DMCs fuera del mismo.

      Tras aplicar estos métodos y definiciones a los mapas de metilación previamente obtenidos, se encontró que 3.303.077 (12,19%) y 329.974 (1,22%) de los sitios CpG del genoma humano son, respectivamente, DMC intra-individuales y DMC inter-individuales. Los principales elementos genómicos relacionados con la regulación de la transcripción (promotores, potenciadores y sitios de unión a factores de transcripción) no presentan diferencias destacables en DMCs intra-individuales y DMCs inter-individuales. Sin embargo, se encontró que las regiones de cromatina abierta están enriquecidas en DMCs intra-individuales, pero empobrecidas en DMCs inter-individuales. Los promotores son pobres en DMCs, mientras que los potenciadores son ricos, lo cual sugiere que la mayoría de cambios de metilación (tanto entre tipos celulares como entre individuos) ocurren en potenciadores. Los sitios de unión a factores de transcripción también son ricos en DMCs, independientemente del tipo de factor de transcripción del que se trate. Por otra parte, la proporción de DMCs disminuye a medida que decrece la distancia al sitio de inicio de la transcripción más próximo y aumenta a medida que decrece la distancia al sitio de fin de la transcripción más próximo.

      Como ya se ha mencionado, solo el 16,6% de los sitios CpG en promotores ejercen un efecto sobre la transcripción cuando cambia su metilación. Recientemente, se han descrito los llamados “semáforos CpG” (CpG-TLs), los cuales son sitios CpG individuales cuyo nivel de metilación está asociado con la tasa de transcripción de un gen cercano. Estos marcadores biológicos son muy adecuados para poner a prueba la hipótesis de que el signo de la asociación entre la metilación y la transcripción depende del contexto genómico en que se produce la metilación y del tipo de factores de transcripción implicados.

      Otros autores habían detectado CpG-TLs en el genoma humano, utilizando el coeficiente de correlación de Spearman y seleccionando solo aquellos resultados con asociación negativa. Sin embargo, este test es sensible a los valores atípicos. Para reducir este problema y aumentar la fiabilidad de los resultados, en esta Tesis Doctoral se desarrolló un método de detección de CpG-TLs utilizando una combinación del coeficiente de correlación de Spearman y el test de Kruskal-Wallis. También se distinguieron dos clases de CpG-TLs: i) rojos, cuando la asociación es negativa, y ii) verdes, cuando la asociación es positiva. Este método está disponible como módulo de MethFlow.

      Tras aplicar estos métodos y definiciones a los mapas de metilación y perfiles de transcripción previamente obtenidos, se encontró que la cantidad de CpG-TLs verdes es casi el doble que la de los CpG-TLs rojos: 126.959 (0,49%) y 66.746 (0,26%), respectivamente, de los sitios CpG del genoma humano. Los promotores y potenciadores son ricos en CpG-TLs, tanto rojos como verdes. Esto sugiere que ambos disponen de mecanismos para activar o reprimir la transcripción vía metilación, probablemente debido a diferentes combinaciones de sitios de unión a factores de transcripción. Mientras que los sitios de unión a factores de transcripción con mayor afinidad por sitios no metilados son ricos en CpG-TLs rojos y verdes, los sitios de unión a factores de transcripción con mayor afinidad por sitios metilados son pobres en CpG-TLs rojos y ricos en CpG-TLs verdes. Este segundo tipo de factores de transcripción son fundamentales en el desarrollo y algunos son capaces de reclutar enzimas que remodelan la metilación. En cuanto a su distribución en torno a los genes, la proporción de CpG-TLs verdes disminuye a medida que decrece la distancia al sitio de inicio de la transcripción, mientras que la proporción de CpG-TLs rojos aumenta.

      La base de datos dedicada a la metilación NGSmethDB contiene una amplia colección de mapas de metilación para diferentes especies, tipos celulares e individuos. Con el fin de optimizar el almacenamiento y consulta del gran volumen de datos producidos a lo largo de esta Tesis Doctoral, entre los que se incluyen mapas de metilación, de DMCs y de CpG-TLs, se decidió rediseñar por completo esta base de datos. Para agilizar las comparaciones entre muestras, se optó por migrar los datos al sistema de bases de datos MongoDB y almacenarlos en una estructura jerárquica de documentos JSON (un formato estándar que permite intercambiar datos etiquetados y jerarquizados entre distintos lenguajes de programación), donde: i) cada ensamblado posee su propia base de datos, ii) cada cromosoma posee su propia colección de documentos JSON, iii) cada sitio CpG posee su propio documento JSON y iv) cada subdocumento contiene un tipo de información biológica (metilación, metilación diferencial o asociación con la transcripción). En el caso de los mapas de metilación, cada subdocumento se divide en tres niveles: i) el individuo, ii) la muestra y iii) el tipo de dato. Se implementaron varias vías de acceso, comparación y visualización de los datos contenidos en la NGSmethDB, entre las que destacan: i) su acceso programático mediante el protocolo HTTPS a través de un servidor RESTful API y ii) su conectividad con UCSC Genome Browser a través de Track Hubs.

      En esta Tesis Doctoral se ha mejorado notablemente la fiabilidad en la detección de los niveles de metilación de las citosinas individuales a partir de lecturas de WGBS, tomando en cuenta todas fuentes de error conocidas en la actualidad. Esto ha permitido poner a prueba la hipótesis de que el signo de la asociación entre la metilación y la transcripción depende del contexto genómico en que se produce la metilación y del tipo de factores de transcripción implicados. A la vista de los resultados obtenidos, no ha sido posible refutar esta hipótesis. Un hallazgo inesperado ha sido que la asociación positiva entre la metilación y la transcripción parece ser más frecuente de lo que previamente se había descrito, llegando incluso a ser más frecuente que los casos con asociación negativa. En relación a esto, los sitios de unión a factores de transcripción con mayor afinidad por sitios metilados son ricos en CpG-TLs verdes pero pobres en CpG-TLs rojos. Estas asociaciones positivas podrían deberse a un mecanismo de regulación de la transcripción hasta ahora desconocido, pero también es probable que en realidad se trate de casos en los que la hidroximetilación se asocia positivamente con la transcripción, ya que la técnica WGBS es incapaz de discriminar entre metilación e hidroximetilación. En futuros estudios, se deberían utilizar las técnicas OxBS-seq o TAB-seq para tratar de esclarecer la verdadera naturaleza de los CpG-TLs verdes.

    • English

      Abstract:

      A human being is composed of more than 400 cell types, which differ in the specific set of genes they transcribe, despite having the same genomic sequence. The differences between cell types lie in the specific epigenetic information accompanying the genome and in the transcription factors present in the cell.

      In adult human cells, cytosine methylation occurs primarily at CpG sites and is probably the most important epigenetic mark, as it contributes to transcription regulation while remaining stable throughout the cell lineage, and changing during cell fate establishment. According to the traditional paradigm, methylation in the promoter is associated with the repression of transcription, although there are cases in which it is associated with the activation of transcription or in which transcription is independent of methylation. On the other hand, the effect of methylation on transcription regulation is not limited to promoters, but also to other regions such as enhancers and the gene body are also involved.

      For more than a decade, it has been possible to detect the level of methylation of each cytosine in the genome, thanks to the emergence of a mass sequencing technique known as Whole-Genome Bisulfite Sequencing (WGBS). However, there are many sources of error that affect the reliability of the results obtained, causing erroneous detections in the methylation level of some cytosines and even loss of information in certain regions. As a response to these problems, many researchers choose to average the methylation levels of CpG sites within the regions of interest, assuming that errors will compensate for each other and therefore sacrificing the high resolution this technique offers.

      Nevertheless, the average methylation of a region is not always relevant and can even lead to erroneous conclusions. It has recently been described that only 16.6% of CpG sites on promoters have an effect upon transcription when their methylation changes. This evidences the need to develop methods that allow a more reliable detection of the methylation levels of each cytosine.

      The first objective of this Doctoral Thesis was to design and implement a protocol for obtaining methylation maps, from WGBS reads, in an attempt to solve all known problems: i) eliminating low quality positions or those that have been entered during library preparation, as well as duplicate reads, ii) correcting problems arising from the alignment of reads, iii) discarding positions and reads affected by bias in methylation and iv) distinguishing between C/T substitutions and non-methylated cytosines.

      During the development of this protocol, a type of bias caused by the use of new genomic assembly models was discovered. The last two versions of the human genome assembly include alternative haplotypes, which attempt to collect structural and sequence variations from different human populations or ethnicities, in order to prevent reads from these haplotypes from misaligning in other regions of the genome. However, it has not been evaluated whether this inclusion might cause any problems.

      In this Doctoral Thesis, it is described for the first time that the use of the new assembly models causes the loss of reads from polymorphic loci as a consequence of an increase in the percentage of reads with ambiguous alignment. To recover these reads and assign them to the consensus assembly, a two-stage alignment strategy was designed: i) all reads face full assembly and, ii) those whose alignment has been proved ambiguous during the first stage are confronted with a version of the assembly without alternative haplotypes. Finally, the unique-alignment reads from both alignments are brought together and will be used in later stages of the protocol.

      Once the protocol was mature enough, it was decided to implement it as an open-source program, which received the name of MethFlow. The workflow of this program starts from WGBS reads in FASTQ format and ends with the obtaining of methylation maps after going through several stages which deal with biases and contaminations using third-party programs combined with our own code. The most important stages are those in the two-stage alignment, in which Bismark is used following the strategy described above, and the detection of methylation levels from corrected alignments by using MethylExtract because it is capable of distinguishing C/T substitutions of non-methylated cytosines.

      One of the major problems that the scientific community faces today is the lack of reproducibility of results. To ensure this reproducibility, the MethFlow architecture was designed based on: i) containers generated from a configuration file, which indicates the version of each program, its installation process and configuration, and ii) a sophisticated framework for complex pipelines, providing comprehensive control and a thorough record of the executed processes. Finally, MethFlow was provided with a modular structure, so that later modules could be added to perform related tasks, such as analyzing changes in methylation or its association with transcription.

      Once a suitable tool was available to study the methylation levels of individual cytosines, it was hypothesized that, depending on the genomic context in which it occurs and the type of transcription factors involved, methylation may contribute to the positive or negative regulation of transcription or have no effect.

      To prove this hypothesis it was necessary to: i) obtain a collection of human methylation maps that would collect as many cell types and individuals as possible, ii) characterize the differences in methylation due to cell type and individual and, iii) study the association with transcription of methylation changes in individual CpG sites and their possible impact on regulatory elements of transcription.

      The Roadmap Epigenomics, ENCODE and Enhancing GTEx projects have public sets of WGBS reads for a wide range of human samples. Using MethFlow, methylation maps for 86 human samples from 52 cell types of 29 individuals were obtained. From 51 of the 86 samples, transcription profiles were also obtained through ENCODE DATA. These methylation maps and transcription profiles were fundamental in characterizing methylation changes in the human genome and their association with transcription.

      Each cell type has a characteristic methylation pattern, partly inherited from the stem cell that precedes it in its lineage and partly modified during the cell differentiation process. Similarly, the same cell type may have certain differences in methylation between individuals due to genetic and environmental factors. Both types of variability in methylation can be expected to have different biological implications.

      To study the variability of methylation, samples were compared in pairs and then those changes in methylations that were characteristic of the cell type or the individual were chosen. A method for detecting Differentially Methylated CpGs (DMCs) based on the Fisher’s Exact Test was developed and incorporated into MethFlow as a module. Two types of DMCs were then defined: i) intra-individual DMCs, whose methylation varies between different cell types of the same individual, and ii) inter-individual DMCs, whose methylation varies between individuals for a given cell type. Once as many sets of DMCs as pairs could be formed following these two definitions, strict sets of intra-individual DMCs and inter-individual DMCs were defined: i) for each sample, those DMCs common to all their peer comparisons (intra-individual or inter-individual, as appropriate) were selected and ii) all the selected DMCs were brought together in a single set.

      It was then necessary to design a method to study enrichment in DMCs of a given set of genomic elements. Since the distribution of CpG sites in the genome is not random, enrichment was defined as the ratio between the percentage of CpG sites that are DMCs within the set of genomic elements and the percentage of CpG sites that are DMCs outside the genome.

      After applying these methods and definitions to previously obtained methylation maps, it was found that 3,303,077 (12.19%) and 329,974 (1.22%) of the CpG sites of the human genome are, respectively, intra-individual DMC and inter-individual DMC. The main genomic elements related to the regulation of transcription (promoters, enhancers and transcription factors binding sites) do not show remarkable differences in intra-individual DMCs and inter-individual DMCs. However, open chromatin regions were found to be enriched in intra-individual DMCs, but impoverished in inter-individual DMCs. DMCs are under-represented in promoters, while they are over-represented in enhancers, suggesting that most methylation changes (both between cell types and between individuals) occur in enhancers. Transcription factors binding sites are also enriched in DMCs, regardless of the type of transcription factor involved. On the other hand, the proportion of DMCs decreases as the distance to the nearest transcription start site decreases, and it increases as the distance to the nearest transcription end site decreases.

      As it was previously mentioned, only 16.6% of CpG sites on promoters have an effect on transcription when their methylation changes. Recently, so-called "CpG traffic lights" (CpG-TLs) have been described, which are individual CpG sites whose level of methylation is associated with the transcription rate of a nearby gene. These biological markers are well-suited to test the hypothesis which suggests that the sign of the association between methylation and transcription depends on the genomic context in which methylation occurs and the type of transcription factors involved.

      Other authors had detected CpG-TLs in the human genome, using the Spearman’s correlation coefficient and selecting only those results with negative association. However, this test is sensitive to outliers. In order to reduce this problem and increase the reliability of the results, in this Doctoral Thesis a method to detect CpG-TLs was developed using a combination of the Spearman’s correlation coefficient and the Kruskal-Wallis test. Two classes of CpG-TLs were also distinguished: i) reds, when the association is negative, and ii) greens, when the association is positive. This method is available as a MethFlow module.

      After applying these methods and definitions to previously obtained methylation maps and transcription profiles, it was found that the number of green CpG-TLs is almost twice the number of red CpG-TLs: 126,959 (0.49%) and 66,746 (0.26%), respectively, on the CpG sites of the human genome. Red and green CpG-TLs are both over-represented in promoters and enhancers. This suggests that both have mechanisms to activate or repress transcription via methylation, probably due to different combinations of transcription factors binding sites. In sites recognized by transcription factors with greater affinity for non-methylated sites, both red and green CpG-TLs are over-represented. On the contrary, in sites recognized by transcription factors with greater affinity for methylated sites, red CpG-TLs are under-represented while green CpG-TLs are over-represented. This second type of transcription factors are fundamental in mammalian development and some are even able to recruit enzymes that remodel methylation. In terms of their distribution around genes, the proportion of green CpG-TLs decreases as the distance to the transcription starting site is reduced, while the proportion of red CpG-TLs increases.

      The NGSmethDB methylation database contains an extensive collection of methylation maps for different species, cell types and individuals. In order to optimize the storage and consultation of the large volume of data produced throughout this Doctoral Thesis, including methylation, DMCs and CpG-TLs maps, it was decided to completely redesign this database. To accelerate comparisons between samples, it was decided to migrate the data to the MongoDB database system and store them in a hierarchical structure of JSON documents (a standard format that allows exchanging tagged and hierarchical data between different programming languages), where: i) each assembly has its own database, ii) each chromosome has its own collection of JSON documents, iii) each CpG site has its own JSON document and, iv) each sub-document contains a type of biological information (methylation, differential methylation or association with transcription). In the case of methylation maps, each sub-document is divided into three levels: i) the individual, ii) the sample and, iii) the type of data. Several ways of access, comparison and visualization of the data contained in the NGSmethDB were implemented, among which the following stand out: i) its programmatic access through the HTTPS protocol through a RESTful API server and ii) its connectivity to UCSC Genome Browser through Track Hubs.

      In this Doctoral Thesis the reliability in detecting the methylation levels of individual cytosines from WGBS reads has been significantly improved, taking into account all the sources of error known today. This has allowed to test the hypothesis which argues that the sign of the association between methylation and transcription depends on the genomic context in which methylation occurs and the type of transcription factors that are involved. In the light of the results obtained, it has not been possible to refute this hypothesis. An unexpected finding has been that the positive association between methylation and transcription appears to be more frequent than it had been previously described, becoming even more frequent than cases with negative association. In relation to this, in transcription factors binding sites with greater affinity for methylated sites, CpG-TLs green are over-represented, but CpG-TLs red are under-represented. These positive associations may be due to a hitherto unknown transcription regulation mechanism, but there are also likely to be cases where hydroxymethylation is positively associated with transcription, as the WGBS technique is unable to discriminate between methylation and hydroxymethylation. In further studies, OxBS-seq or TAB-seq techniques should be used in order to clarify the true nature of green CpG-TLs.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno