Generación de datos sintéticos con objetos de cocina para entrenar redes neuronales de convolución

Luis Benages Pardo; Rubén Sagüés Tanco; Gonzalo Lpez Nicols; Sergio Llorente

Ayuda

Generación de datos sintéticos con objetos de cocina para entrenar redes neuronales de convolución

Luis Benages-Pardo ^[1] ; Rubén Sagüés-Tanco ^[1] ; Gonzalo López-Nicolás ^[1] ; Sergio Llorente ^[2]
1. [1] Universidad de Zaragoza
  
  Universidad de Zaragoza
  
  Zaragoza, España
2. [2] BSH Home Appliances Group
Localización: XL Jornadas de Automática: libro de actas. Ferrol, 4-6 de septiembre de 2019 / coord. por José Luis Calvo Rolle, José-Luis Casteleiro-Roca, Isabel Fernández-Ibáñez, Óscar Fontenla-Romero, Esteban Jove Pérez, Alberto J. Leira-Rejas, José Antonio López Vázquez, Vanesa Loureiro-Vázquez, María-Carmen Meizoso-López, Francisco Javier Pérez Castelo, Andrés José Piñón Pazos, Héctor Quintián Pardo, Juan Manuel Rivas Rodríguez, Benigno Antonio Rodríguez Gómez, Rafael A. Vega-Vega, 2019, ISBN 978-84-9749-716-9, págs. 170-177
Idioma: español
Títulos paralelos:
- Dataset generation with kitchen objects with instance segmentation to train convolutional neural networks
Enlaces
- Texto completo
Resumen
- español
  El reconocimiento de objetos ha sido un problema ampliamente analizado en el campo de la visión por computador desde hace muchos años. En este artículo utilizamos el modelo de red neuronal Mask R-CNN para detectar y segmentar algunos objetos de cocinas usando imágenes RGB. Existen algunas bases de datos públicas con los objetos segmentados y etiquetados por clases, para entrenar este tipo de redes pero normalmente no incluyen clases para aplicaciones concretas. Crear un conjunto de datos etiquetado a mano completamente es una tarea muy tediosa y larga. Proponemos un método eficiente para crear imágenes etiquetadas con poco esfuerzo combinando imágenes de fondos con objetos segmentados. Las imágenes se pueden crear manteniendo el realismo en cuanto a la posición y la escala de los objetos, o automáticamente mediante un posicionamiento aleatorio. Se presenta finalmente una comparación de los resultados obtenidos al entrenar la red con ambos conjuntos de datos creados de forma sintética.
- English
  Object recognition has been a wide investigated problem in computer vision for many years. In this paper, we use the Mask R-CNN neural model proposed in the state-of-the-art to detect and segment some classes of kitchen objects using RGB images. There are very few public datasets available with mask and class labels to train this kind of network, and they usually do not include classes needed for specific applications. Creating a handcraft labelled dataset with objects segmented is a very tedious and time consuming task. Thus, we propose an efficient method to generate labelled datasets with very low effort that adequately combines background images with segmented objects. The images can be created keeping the realism in the scales and positions of the objects, or they can be created automatically with the random positioning of the objects. We compare the performance of the models trained in both kinds of synthetic images.