An Empirical Comparison of EM and K-means Algorithms for Binning Metagenomics Datasets

Patricio Tapia Reyes; Claudio Meneses Villegas

Ayuda

An Empirical Comparison of EM and K-means Algorithms for Binning Metagenomics Datasets

Patricio Tapia Reyes ^[1] ; Claudio Meneses Villegas ^[1]
1. [1] Universidad Católica del Norte
  
  Universidad Católica del Norte
  
  Antofagasta, Chile
Localización: Ingeniare: Revista Chilena de Ingeniería, ISSN-e 0718-3305, ISSN 0718-3291, Vol. 26, Nº. Extra 3, 2018, págs. 20-27
Idioma: inglés
Títulos paralelos:
- Comparación Empírica de los Algoritmos EM y K-medias para Binning de Conjuntos de Datos Metagenómicos
Enlaces
- Texto completo (pdf)
Resumen
- español
  La metagenómica es un área de la microbiología que trata con la clasificación taxonómica de muestras tomadas directamente del ambiente. Estas muestras son secuencias de largo variable que pueden pertenecer a distintas especies, algunas pueden ser desconocidas o no han sido almacenadas previamente en una base de datos genómica. Uno de los pasos principales en la clasificación metagenómica corresponde al proceso de binning de los fragmentos de secuencias en grupos que pueden corresponder a una especie. Se han usado varios acercamientos para realizar binning, principalmente algoritmos de machine learning para realizar la clasificación o agrupamiento. Este artículo presenta los resultados de una evaluación empírica de dos algoritmos no supervisados bien conocidos, para realizar la tarea de binning metagenómico: EM vs. K-medias. Ambos algoritmos son probados para secuencias largas y cortas de conjuntos de datos sintéticos, con diferentes proporciones y número de especies. Estos resultados empíricos muestran que K-medias en general tiene un mejor rendimiento que el algoritmo EM, pero los resultados de EM son competitivos cuando son probados con varios conjuntos de secuencias cortas.
- English
  Metagenomics is an area of microbiology that deals with the taxonomic classification of genomic samples taken directly from the environment. These samples are sequences of variable length and they may correspond to different species, some of which may be unknown or not previously stored in a genomic database. One of the main steps in metagenomics classification correspond to binning the sequence fragments into groups that may correspond to one species. Many approaches are used to perform binning, mainly machine learning algorithms to perform classification or clustering. This paper presents the results of an empirical evaluation of two well-known unsupervised algorithms to perform the metagenomics binning task: the EM versus the K-means algorithms. Both algorithms are tested on short and long reads of synthetic datasets, with different proportions and number of species. These empirical results show that K-means in general outperforms the EM algorithm, but EM results competitive in several of the short reads datasets used for evaluation.