Ayuda
Ir al contenido

Dialnet


Evaluation of data balancing techniques. Application to CAD of lung nodules using the LUNA16 framework

  • Autores: Alexander Sóñora-Mengana, Evgenia Papavasileiou, Juan C. García-Naranjo, Bard Jansen, Jef Vandemeulebroucke
  • Localización: Revista Científica de Ingeniería Electrónica, Automática y Comunicaciones, ISSN-e 0258-5944, ISSN 1815-5928, Vol. 39, Nº. 3, 2018, págs. 57-67
  • Idioma: inglés
  • Títulos paralelos:
    • Evaluación de técnicas de balanceo de datos. Aplicación en un sistema CAD para nódulos pulmonares empleando el sistema LUNA16
  • Enlaces
  • Resumen
    • español

      Debido a la alta incidencia del cáncer de pulmón a nivel mundial, los sistemas de diagnóstico asistidos por computadora (CAD por sus siglas en inglés) desempeñan un papel importante en los estudios de pesquisaje de la enfermedad. El proceso de clasificación en los sistemas CAD se ve deteriorado debido al bajo porciento de estructuras detectadas que se corresponden a nódulos verdaderos. El principal propósito de este trabajo es compararla influencia de las técnicas de balanceo de datos en la clasificación de nódulos pulmonares. De acuerdo con la literatura revisada, en este trabajo se presenta por primera vez la comparación entre balanceo de datos aplicado a la detección de nódulos pulmonares empleando un conjunto de imágenes grande para razones de falsos positivos bajas. Los métodos se aplicaron a un sistema CAD presentado en LUNA16 Challenge (ETROCAD). Los mejores resultados obtenidos se corresponden a los métodos SMOTE y SMOTE-TL con una sensibilidad promedio de 0.760 y 0.759 respectivamente, en contraste a 0.748 obtenido sin realizar ningún balanceo de datos. Aunque el impacto en el índice empleado en LUNA16 no es alto, un balanceo de datos adecuado permitió la detección correcta de 36 candidatos adicionales a una raso de 4 falsos positivos por imagen. En el momento de escritura de este trabajo, el desempeño del ETROCAD con balanceo de datos basado en SMOTE exhibe la mayor puntuación de entre los sistemas CAD clásicos.

    • English

      Due to the high incidence of lung cancer, computer-aided detection (CAD) systems may play an increasingly important role in screening. Classification in CAD systems has to deal with highly imbalanced datasets composed by actual nodules and non-nodule structures. The application of data balancing techniques helps the training process of the classifiers, making the generation of the classification rules more effective. The purpose of this paper is to compare the performance of different data balancing techniques applied to the classification of lung nodules. According to the reviewed literature, this is the first time that different data balancing methods are evaluated on the problem of lung nodule detection using a large data set and at low false positive rates. A web-based framework was used to evaluate the different methods applied to a classical CAD system (ETROCAD) presented in the LUNA16 Challenge by calculating a score of average sensitivity at different values of false positives per scan. In our experiments, data balancing using SMOTE and SMOTE-TL led to the best results, with a score of 0.760 and 0.759 respectively, in comparison to 0.748 when not balancing the data. Although the impact on the overall score may seem marginal, adequate data balancing resulted in the correct classification of 36 additional candidate nodules at 4 FP/scan. At the time of writing this paper, the SMOTE-based ETROCAD system had the best score among all the classical systems using handcrafted features in LUNA16 web site.

Los metadatos del artículo han sido obtenidos de SciELO Cuba

Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno