Algoritmos de aprendizaje automático para clasificación de Splice Sites en secuencias genómicas

Heidy Díaz-Barrios; Yania Alemán-Rivas; Leidys Cabrera Hernández; Alejandro Morales-Hernández; María del Carmen Chávez Cárdenas; Gladys Casas Cardoso

Ayuda

Algoritmos de aprendizaje automático para clasificación de Splice Sites en secuencias genómicas

Heidy Díaz-Barrios ^[2] ; Yania Alemán-Rivas ^[3] ; Leidys Cabrera-Hernández ^[1] ; Alejandro Morales-Hernández ^[1] ; María del Carmen Chávez-Cárdenas ^[1] ; Gladys María Casas-Cardoso ^[1]
1. [1] Universidad Central de Las Villas
  
  Universidad Central de Las Villas
  
  Cuba
2. [2] AMPP Placetas
3. [3] DMPF Placetas
Mostrar afiliaciones +
Localización: Revista Cubana de Ciencias Informáticas, ISSN-e 2227-1899, Vol. 9, Nº. 4, 2015
Idioma: español
Títulos paralelos:
- Machine Learning algorithms for Splice Sites classification in genomic sequences
Enlaces
- Texto completo
Resumen
- español
  Las técnicas de clasificación se utilizan frecuentemente en la solución de diferentes problemas de la Bioinformática. Las secuencias de ADN de la mayoría de los genes se transcriben en ARN mensajero que se traducen en proteínas. El ADN contiene en los genes segmentos codificantes (exones) y no codificantes (intrones). Durante el proceso de transcripción los intrones son “cortados”, mecanismo conocido como splicing que coloca a los exones de un gen consecutivamente, listos para traducirse en la secuencia de aminoácidos que conforman la proteína. En los splice sites, el principio del intrón es conocido como donor (par AG), y el final es conocido como acceptor (par GT). El presente trabajo aborda la predicción de sitios de splicing. Se utilizan técnicas de aprendizaje automatizado necesarias en la descripción de dominios biológicos y dos bases de datos de secuencias de nucleótidos, para clasificar verdaderos y falsos splice sites con 7000 casos cada una, 6000 falsos y 1000 verdaderos. Se prueba y compara una serie de algoritmos utilizando WEKA (Waikato Enviroment for Knowledge Analysis) para encontrar los mejores clasificadores. Para hacer la selección del mejor clasificador se aplican las medidas más conocidas basadas en la matriz de confusión: exactitud, razón de verdaderos positivos, curvas ROC, etc. Como resultados del estudio se concluye que los métodos bayesianos maximizaron el número de verdaderos positivos y el área bajo la curva, por lo que es la propuesta a utilizar para realizar la clasificación de sitios de splicing.
- English
  The classification techniques are been used frequently in the solution of different Bioinformatic problems. The ADN sequences in the majority of the gene make a transcript to ARN messenger, whom have led to proteins. The ADN contain in the genes encode segments (exones), and unencode segments (introns). During the process of transcription the introns are cut, that mechanism is call splicing, it put the axons of the gene, one consecutive the other, and ready to lead to the sequence of amino acid to make the protein up. In the splice sites, the beginning of the introns is call donor (AG par), and the end is call acceptor (GT par). A few of these combinations are really splice sites. The present work is about the prediction of splicing. It is used the techniques of machine learning necessary to descript biology domains and two database of nucleates sequences to classify true or false splice sites, with 7000 cases, 6000 false and 1000 true. It is about to proof and compare a series of algorithms using WEKA (Waikato Enviroment for Knowledge Analysis) to find the best classifiers. To make the selection of the best classification it is applied the knowlest measure based in the Matrix of Confusion: accuracy, rate of True Positive (TP), area under the curve of Receiver Operator Curve (ROC), etc. As result of the study it is conclude that the Bayesian methods maximize the number of true positive and the area under the curve, which are the nominations to use to classify splice sites.