Análisis de la fertilidad por medio de técnicas de minería datos

Omar D. Castrillón Gómez; Jaime Antero Arango; Luis F. Castillo

Ayuda

Análisis de la fertilidad por medio de técnicas de minería datos

Omar Danilo Castrillón ^[1] ; Jaime Antero Arango ^[1] ; Luis Fernando Castillo ^[1]
1. [1] Universidad Nacional de Colombia
  
  Universidad Nacional de Colombia
  
  Colombia
Localización: Información tecnológica, ISSN-e 0718-0764, ISSN 0716-8756, Vol. 33, Nº. 3 (Junio), 2022, págs. 203-212
Idioma: español
Títulos paralelos:
- Fertility analysis through data mining techniques
Enlaces
- Texto completo (pdf)
Resumen
- español
  El objetivo de esta investigación es predecir las variables más importantes que afectan la fertilidad en una persona. Se utiliza la plataforma de aprendizaje automático y minería de datos Weka. Se emplean los algoritmos de Clusters EM, SimpleKMeans y J48, que es de comportamiento similar a un algoritmo Bayesiano. Inicialmente se modela una base de datos existente, hasta ajustar 105 registros y 9 variables, 8 de ellas independientes (edad, enfermedades, accidentes, cirugía, fiebre, alcohol, fumador y sedentarismo) y una dependiente (fertilidad). Como resultado se identifican las 5 variables más influyentes en este proceso: 1) edad, 2) accidente, 3) fiebre, 4) cirugía y 5) alcohol. Se logra un porcentaje de éxito superior al 90% cuando se emplea una validación cruzada 80% - 20%. Se concluye que las técnicas de árboles de decisión y clúster empleadas en este estudio permiten establecer de forma clara las variables más importantes en los procesos de fertilidad de una persona.
- English
  The primary objective of this research study is to predict the most important variables that affect fertility in a person. The study is conducted by using the automatic learning and data mining platform Weka, the expectation maximization (EM) clustering algorithm, SimpleKMeans, and the classification algorithm J48, which behaves similarly to a Bayesian algorithm. Initially, an existing database is modeled until 105 records and nine variables are reached, eight independent variables (age, illnesses, accidents, surgeries, fever, alcohol, smoker, and sedentary lifestyle) and one dependent variable (fertility). The results revealed the five most influential variables: 1) age, 2) accidents, 3) fever, 4) surgery, and 5) alcohol. The success rate is over 90% when a cross-validation 80% - 20% is applied. It is concluded that the random forest and clustering algorithms employed here allow to clearly determine the most important variables that affect fertility in a person.