Bosques aleatorios como extensión de los árboles de clasificación con los programas R y Python

Rosa Fátima Medina Merino; Carmen Ismelda Ñique Chacón

Ayuda

Bosques aleatorios como extensión de los árboles de clasificación con los programas R y Python

Medina-Merino, Rosa Fátima ^[1] ; Ñique-Chacón, Carmen Ismelda ^[2]
1. [1] Universidad de Lima
  
  Universidad de Lima
  
  Perú
2. [2] Instituto Nacional de Estadística e Informática.(Perú)
Localización: Interfases, ISSN-e 1993-4912, Nº. 10, 2017, págs. 165-189
Idioma: español
Títulos paralelos:
- Random Forests as an extension of the classification trees with the R and Python programs
Enlaces
- Texto completo (pdf)
Resumen
- español
  El presente artículo presenta la aplicación del método no paramétrico Random Forest mediante el aprendizajesupervisado, como una extensión de los árboles de clasificación. El algoritmo de Random Forest surge como la agrupación de varios árboles de clasificación; básicamente selecciona de manera aleatoria una cantidad de variablescon las cuales se construye cada uno de los árboles individuales, y se realizan predicciones con estas variables que posteriormente serán ponderadas a través del cálculo de la clase más votada de los árboles que se generaron, para finalmente hacer la predicción por Random Forest. Para la aplicación se trabajó con 3168 registros de voz grabados, para los cuales se presentan los resultados de un análisis acústico, registrándose variables tales como frecuencia, espectro, modulación, entre otras, con lo cual se busca obtener un patrón de identificación y clasificación según género a través de un identificador de voz. El registro de datos utilizado es de acceso libre y puede ser descargado desde la plataforma web de Kaggle a través del enlace https://www.kaggle.com/primaryobjects/voicegender. Para el desarrollo del algoritmo del modelo, se recurrió al programa estadístico R. Adicionalmente, se realizaron aplicaciones con Python mediante el desarrollo de algoritmos de clasificación.
- English
  This article presents the application of the non-parametric Random Forest method through supervised learning, as an extension of classification trees. The Random Forest algorithm arises as the grouping of several classification trees. Basically it randomly selects a number of variables with which each individual tree is constructed and predictions are made with these variables that will later be weighted through the calculation of the most voted class of these trees that were generated, to finally do the prediction by Random Forest. For the application, we worked with 3168 recorded voices, for which the results of an acoustic analysis are presented, registering variables such as frequency, spectrum, modulation, among others, seeking to obtain a pattern of identification and classification according to gender through a voice identifier. The data record used is in open access and can be downloaded from the Kaggle web platform via https://www.kaggle.com/primaryobjects/voicegender. For the development of the algorithm’s model, the statistical program R was used. Additionally, applications were made with Python by the development of classification algorithms.