Resumen de Procesamiento multimodal de datos extraídos de redes sociales mediante técnicas de inteligencia artificial: Aplicaciones al turismo

Ayuda

Resumen de Procesamiento multimodal de datos extraídos de redes sociales mediante técnicas de inteligencia artificial: Aplicaciones al turismo

Luis Lucas Ibáñez

Las redes sociales son una de las fuentes de datos que mayor información y potencial inteligencia podrían aportar a casi cualquier ámbito de aplicación. Uno de los principales retos del aprendizaje automático en entornos de datos masivos es solventar la dificultad que conlleva la selección, clasificación y en general, el procesamiento de toda esa información para poder extraer datos útiles para un ámbito concreto. En esta tesis proponemos, en primer lugar, un modelo que explota las capacidades de aprendizaje de transferencia de la arquitectura de la red neuronal CLIP (del inglés, Contrastive Language-Image Pre-Training) en entornos multimodales para identificar tipos de lugares utilizando imagen y texto procedentes de redes sociales. Para ello, utilizamos el dataset InstaCities1M y proponemos un enfoque de validación basado en técnicas de muestreo. Nuestros experimentos, basados en tareas de clasificación de imágenes de acuerdo con las etiquetas del dataset PLACES205, son realizados en primer lugar teniendo en cuenta solo la parte visual, y posteriormente añadiendo los textos asociados como soporte. Los resultados obtenidos demuestran que se puede usar con éxito redes neuronales preentrenadas como CLIP para clasificar imágenes con apenas ajustes, y que además, añadir los textos asociados a las imágenes puede ser una ayuda para mejorar la precisión en función del objetivo. En definitiva, nuestros resultados indican que esta línea de investigación puede ser bastante prometedora. Posteriormente, como aplicación directa de lo anterior, proponemos una metodología para la detección de focos de interés turístico de los usuarios mediante el uso combinado de imágenes y texto procedente de redes sociales. Para ello, nos apoyaremos también en redes neuronales preentrenadas para la clasificación de las imágenes y el análisis de sentimiento. El resultado son datos de frecuencia de tipos de lugares de acuerdo con una taxonomía propia del sector turístico junto con indicadores de sentimiento del usuario, que es información muy relevante para los analistas del sector. Finalmente, presentamos un sistema completo capaz de identificar y geolocalizar puntos de interés mediante el uso combinado de imágenes y texto de redes sociales. Para ello, se exploran diferentes metodologías basadas en información multimodal para la geolocalización de los lugares detectados. El resultado es un sistema que permite crear nuevas sinergias entre imágenes y textos para detectar y geolocalizar lugares de interés que no han sido etiquetados previamente por ningún otro medio, proporcionando información potencialmente relevante para tareas como la catalogación de tipos específicos de lugares en una ciudad en favor de su sector turístico. Los experimentos realizados revelan que, en general, la información procedente de los textos es más precisa y relevante que las procedente de las imágenes en este entorno multimodal.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Coordinado por: