Resumen de Anticipando el Debate: Prediciendo la Controversia en Noticias con PLN basado en Transformers

Ayuda

Resumen de Anticipando el Debate: Prediciendo la Controversia en Noticias con PLN basado en Transformers

Asier Gutiérrez Fandiño, Marta Villegas Montserrat, Blanca Calvo Figueras

español
La controversia es un fenómeno social que ocurre cuando un tema genera desacuerdo entre los ciudadanos. En la esfera pública, la controversia se encuentra a menudo relacionada con las noticias de actualidad. Mientras que trabajos anteriores investigaron la detección de la controversia, en este trabajo nos proponemos predecirla basándonos en el título y el contenido de una noticia. En primer lugar, recogemos y curamos un conjunto de datos de un agregador de noticias en castellano que etiqueta las noticias según su controversia mediante las interacciones de la comunidad. Entonces, experimentamos con las capacidades de los modelos de lenguaje para aprender la categoría de controversia mediante el fine-tuneado de modelos que tienen el título y el contenido como contenido de entrada, y también con solo el título. Para lidiar con el desbalanceo de los datos, realizamos experimentos de sampleado de los datos. El mejor modelo obtiene una micro-F1 de 84.72, entrenado con un conjunto de datos desbalanceado y con el título y el contenido como entrada. Los resultados preliminares muestran que esta tarea puede ser aprendida mediante características lingüísticas y sociales.
English
Controversy is a social phenomenon that emerges when a topic generates large disagreement among people. In the public sphere, controversy is very often related to news. Whereas previous approaches have addressed controversy detection, in this work, we propose to predict controversy based on the title and content of a news post. First, we collect and prepare a dataset from a Spanish news aggregator that labels the news’ controversy in a community-based manner. Next, we experiment with the capabilities of language models to learn these labels by fine-tuning models that take both title and content, and the title alone. To cope with data unbalance, we undergo different experiments by sampling the dataset. The best model obtains an 84.72 micro-F1, trained with an unbalanced dataset and given the title and content as input. The preliminary results show that this task can be learned by relying on linguistic and social features.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Coordinado por: