Metodología de desarrollo de técnicas de agrupamiento de datos usando aprendizaje automático

Ghiordy Ferney Contreras Contreras; Byron Medina Delgado; Brayan René Acevedo Jaimes; Dinael Guevara Ibarra

Ayuda

Metodología de desarrollo de técnicas de agrupamiento de datos usando aprendizaje automático

Autores: Ghiordy Ferney Contreras Contreras, Byron Medina Delgado, Brayan René Acevedo Jaimes, Dinael Guevara Ibarra
Localización: Tecnura: Tecnología y Cultura Afirmando el Conocimiento, ISSN-e 2248-7638, ISSN 0123-921X, Vol. 26, Nº. 72, 2022, págs. 42-58
Idioma: español
Títulos paralelos:
- Development Methodology of Techniques for Data Clustering Using Machine Learning
Enlaces
- Texto completo (pdf)
Resumen
- español
  Contexto:
  
  Hoy en día, el uso de grandes cantidades de datos adquiridos desde diversos dispositivos y equipos electrónicos, ópticos u otra tecnología de medición, generan un problema de análisis de datos en el momento de extraer la información de interés desde las muestras adquiridas. En ellos, agrupar correctamente los datos es necesario para obtener información relevante y precisa para evidenciar el fenómeno físico que se desea abordar.
  
  Metodología:
  
  El trabajo presenta la evolución de una metodología de cinco etapas para el desarrollo de una técnica de agrupamiento de datos, a través de técnicas de aprendizaje automático e inteligencia artificial. Esta se compone de cinco fases denominadas análisis, diseño, desarrollo, evaluación y distribución, con estándares de código abierto y fundamentadas en los lenguajes unificados para la interpretación del software en ingeniería.
  
  Resultados:
  
  La validación de la metodología se ha desarrollado mediante la creación de dos métodos de análisis de datos, con un tiempo de ejecución promedio de 20 semanas, obteniendo valores de precisión 40 % y 29 % superiores con los algoritmos clásicos de agrupamiento de datos de k-means y fuzzy c-means. Adicionalmente, se encuentra una metodología de experimentación masiva sobre pruebas unitarias automatizadas, las cuales lograron agrupar, etiquetar y validar 3,6 millones de muestras, acumulado un total de 100 ejecuciones de grupos de 900 muestras, en aproximadamente 2 horas.
  
  Conclusiones:
  
  Con los resultados de la investigación se ha determinado que la metodología pretende orientar el desarrollo sistemático de técnicas de agrupamiento de datos, en problemas específicos para bases integradas por muestras con atributos cuantitativos, como los casos de parámetros de canal en un sistema de comunicaciones o la segmentación de imágenes usando los valoras RGB de los pixeles; incluso, cuando se desarrolla software y hardware, la ejecución será más versátil que en casos con aplicaciones teóricas.
  
  Financiamiento:
  
  Universidad Francisco de Paula Santander y Univeridade Federal de Minas Gerais.
- English
  Context:
  
  Today, the usage of large amounts of data acquired from various electronic, optical, or other measurement devices and equipment brings the problem of data analysis at the time of extracting the aimed information from the acquired samples. Where to correctly group the data is necessary to obtain relevant and accurate information to evidence the physical phenomenon that you want to address.
  
  Methodology:
  
  The work presents the development and evolution of a five-stage methodology for the development of a data grouping technique, using machine learning techniques and artificial intelligence. It consists of five phases called analysis, design, development, evaluation, and distribution, using open-source standards, and based on unified languages for the interpretation of software in engineering.
  
  Results:
  
  The validation of the methodology was developed through the creation of two data analysis methods, with an average execution time of 20 weeks, obtaining precision values 40% and 29% higher with the classic data grouping algorithms of k-means and fuzzy cmeans. Additionally, there is a massive experimentation methodology on automated unit tests, which managed to group, label, and validate 3.6 million samples accumulated in the total of 100 group runs of 900 samples in approximately 2 hours.
  
  Conclusions:
  
  Finally, with the results of the research was determined that the methodology intends to guide the systematic development in specific problems in quantitative databases, such as the channel parameters in a communication system or the segmentation of images using the RGB values of the pixels. Even when software is developed both hardware, the execution will be more versatile than in cases with theoretical applications.
  
  Financing:
  
  Universidad Francisco de Paula Santander and Universidade Federal de Minas Gerais.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: