Aprendizaje profundo en imágenes de alimentos con etiquetas múltiples y ruidosas

J. Roberto Morales; Ángela Martínez; Eduardo Aguilar Torres

Ayuda

Aprendizaje profundo en imágenes de alimentos con etiquetas múltiples y ruidosas

Roberto Morales ^[1] ; Ángela Martínez ^[2] ; Eduardo Aguilar ^[1]
1. [1] Universidad Católica del Norte
  
  Universidad Católica del Norte
  
  Antofagasta, Chile
2. [2] Universidad de Valparaíso
  
  Universidad de Valparaíso
  
  Valparaíso, Chile
Localización: Ingeniare: Revista Chilena de Ingeniería, ISSN-e 0718-3305, ISSN 0718-3291, Vol. 32, Nº. 1, 2024
Idioma: español
Títulos paralelos:
- Deep learning from noisy multi-label food images
Enlaces
- Texto completo (pdf)
Resumen
- español
  El rendimiento de los métodos de aprendizaje profundo no solo depende del diseño del modelo, sino también de la cantidad, variedad y calidad de los datos. La recopilación de abundantes datos de repositorios públicos es factible, pero la revisión y anotación resulta laboriosa. Como alternativa, se han desarrollado bases de datos no supervisadas, donde la asignación automática de etiquetas puede generar ruido debido a posibles desviaciones en los datos recopilados. En este trabajo proponemos un modelo de aprendizaje profundo robusto a etiquetas ruidosas para la tarea de clasificación de imágenes de alimentos a nivel de ingredientes, mediante la extensión del método de etiqueta única AFM. La propuesta, ML-AFM, utiliza Attentive Grouping y MixUp para mitigar el ruido de las etiquetas y capturar relaciones complejas entre características y etiquetas en los datos de entrenamiento. Adicionalmente, se adapta la función de activación y pérdida para que sea apropiada a problemas de clasificación multi-etiqueta. La evaluación experimental se realiza sobre el conjunto de datos público Food-101N, con anotaciones ampliadas a nivel de ingredientes. De los resultados se observa que ML-AFM proporciona un mejor rendimiento que el modelo de la línea base, alcanzando un F1 de 86,99%, un AUPRC de 92,85% y un índice de Jaccard de 77,19%. La mejora del rendimiento demuestra la robustez del modelo propuesto frente al problema planteado, lo que respalda su utilidad en aplicaciones prácticas de reconocimiento de alimentos.
- English
  The performance of deep learning methods depends not only on the model’s design but also on the data’s quantity, variety, and quality. Collecting abundant data from public repositories is feasible, but their review and annotation are laborious. As an alternative, unsupervised databases have been developed, where the automatic assignment of labels may generate noise due to possible deviations in the collected data. This paper proposes a robust deep-learning model for noisy labels to classify food images at the ingredient level by extending the single-label AFM method. The proposed ML-AFM uses Attentive Grouping and MixUp to mitigate label noise and capture complex feature-label relationships in the training data. Additionally, the activation and loss function is adapted to be suitable for multi-label classification problems. The experimental evaluation is performed on the public Food-101N dataset, with extended annotations at the ingredient level. The results show that ML-AFM performs better than the reference model, achieving an F1 of 86.99%, an AUPRC of 92.85%, and a Jaccard index of 77.19%. The improved performance demonstrates the proposed model robustness to the given problem, which supports its usefulness in practical food recognition applications.