Topic models with time related context

Julian Cendrero Almodovar

Ayuda

Topic models with time related context

Autores: Julian Cendrero Almodovar
Directores de la Tesis: Julio Gonzalo Arroyo (dir. tes.), Ivar Zapata Olson-Lunde (codir. tes.)
Lectura: En la UNED. Universidad Nacional de Educación a Distancia ( España ) en 2026
Idioma: inglés
Número de páginas: 152
Tribunal Calificador de la Tesis: Raquel Martínez Unanue (presid.), David Enrique Losada Carril (secret.), Fabio Crestani (voc.)
Programa de doctorado: Programa de Doctorado en Sistemas Inteligentes por la Universidad Nacional de Educación a Distancia
Materias:
- Matemáticas
  - Ciencia de los ordenadores
    - Inteligencia artificial
Enlaces
- Tesis en acceso abierto en: e-spacio
Resumen
- español
  La rápida evolución de los medios digitales y la gran cantidad de textos generados en línea presentan desafíos significativos para las empresas a la hora de comprender la opinión pública y su percepción de marca. Si bien las herramientas de monitoreo de IA existentes se han centrado en analizar grandes volúmenes de texto para extraer información de forma automática (por ejemplo, mediante la modelización de "tópicos"), a menudo se deja fuera del análisis una importante modalidad de datos que suele ocurrir junto con el sentido textual: el contexto temporal. Este tipo de contexto puede ser intrínseco (como la fecha de publicación de un documento) o extrínseco (como series temporales externas correlacionadas con los eventos escritos en los documentos). Los algoritmos que no tienen en cuenta el tiempo, como el modelo de "tópicos" estándar Latent Dirichlet Allocation (LDA), no pueden aprovechar esta valiosa fuente de información.
  
  El objetivo de este Doctorado Industrial es diseñar modelos de "tópicos" originales que incluyan datos contextuales relacionados con el tiempo para resolver problemas de negocios específicos. En particular, pretendemos abordar dos problemas independientes: en primer lugar, el desarrollo de un modelo para la regresión de series temporales a través de models de "tópicos" que pueda utilizarse como parte de un marco para la cuantificación del riesgo reputacional; en segundo lugar, el desarrollo de un modelo de "tópicos" sensible al tiempo que presente un algoritmo de optimización estable y eficiente adecuado para grandes colecciones de textos muy cortos, como los que se encuentran en sitios de microblogging como Twitter.
  
  El problema de la regresión de series temporales a través de la modelización de "tópicos" viene motivado por la observación de que una serie temporal externa de datos numéricos y una secuencia de documentos ordenados en el tiempo a menudo están vinculados: por ejemplo, el valor de las acciones de una empresa puede exhibir correlaciones con noticias sobre esa empresa. Nuestro objetivo era modelar el impacto que los temas subyacentes discutidos en los textos tienen en la serie temporal. Para ello, introdujimos un modelo de "tópicos" original, Times Series Impact Through Topic Modeling (TSITM), que incluye datos contextuales al acoplar LDA con una regresión lineal, utilizando un prior "elastic net" para fijar a cero el impacto de los "tópicos" no correlacionados. Los "tópicos" resultantes actúan como variables explicativas para la regresión de la serie temporal numérica, lo que nos permite comprender los movimientos de la serie temporal en función de los eventos descritos en los datos de texto. Hemos probado nuestro modelo en dos conjuntos de datos: primero, utilizamos noticias políticas para explicar las cotas de popularidad del presidente de los Estados Unidos; luego, consideramos un corpus de noticias económicas para explicar los rendimientos financieros de 4 corporaciones multinacionales diferentes. Nuestros experimentos muestran que una selección adecuada de hiperparámetros (a través de la validación de submuestreo aleatorio repetido y la optimización bayesiana) conduce a correlaciones significativas: tanto una referencia intrínseca como los métodos más avanzados fueron superados significativamente por TSITM en MSE, MAE y R^2,, según nuestro contraste de hipótesis.
  
  El problema de utilizar las fechas de publicación internas de los documentos para desarrollar modelos de “tópicos” sensibles al tiempo tiene notables precedentes en la literatura: el modelo Topics over Time (ToT) capturó cambios temáticos en conjuntos de datos con fecha de publicación al modelar explícitamente las fechas de publicación junto con los patrones de coocurrencia de palabras. Sin embargo, ToT no se abordó de manera completamente bayesiana, un defecto que lo hace susceptible a problemas de estabilidad, particularmente cuando la tarea implica modelar una gran colección de textos cortos. Para abordar este problema, propusimos un modelo completamente bayesiano, Topics over Time (BToT), a través de la introducción de un prior conjugado de la distribución Beta. Este prior actúa como una regularización que evita que la versión en línea del algoritmo realice actualizaciones inestables cuando un “tópico” está poco representado en un mini-batch. Las características de este prior de la distribución Beta se estudian aquí por primera vez. Aún así, este modelo sufre de una diferencia de escala entre la fecha de publicación y la multiplicidad de palabras por documento. Se propone una variación de BToT, Weighted Bayesian Topics over Time (WBToT), como solución. En WBToT, las fechas de publicación se repiten un cierto número de veces por documento, lo que equilibra la influencia relativa de las palabras y las fechas a lo largo del proceso de inferencia. Hemos probado nuestros modelos en dos conjuntos de datos: una colección de más de 200 años de discursos sobre el estado de la unión (SOTU) de los Estados Unidos y un corpus de Twitter a gran escala de COVID-19 con 10 millones de tuits. Los resultados muestran que WBToT captura eventos mejor que LDA y otros modelos de “tópicos” sin contexto temporal; además, la estabilidad del algoritmo de optimización en línea en WBToT permite su aplicación a problemas que son intratables para ToT estándar.
  
  La introducción de los modelos TSITM y WBToT tuvo motivaciones distintas y sirvió para diferentes propósitos, pero ambos destacaron la importancia de modelar datos textuales conjuntamente con metadatos temporales. Capturar la compleja interacción de estas dos modalidades de datos planteó obstáculos similares en ambos casos, por lo que los métodos y estrategias que desarrollamos compartieron muchos elementos comunes. Esperamos que el formalismo presentado en esta tesis sea lo suficientemente general como para servir de base para futuros modelos de “tópicos” con contexto temporal.
  
  Dado el carácter aplicado y enfocado en la industria de este programa de doctorado, también enfatizamos las aplicaciones comerciales de los algoritmos descritos anteriormente. Se presentó un recorrido por algunos de los productos más notables construidos sobre esta tecnología, y los casos de uso de los clientes ilustraron el interés de la investigación presentada en esta tesis.
- English
  The rapid evolution of digital media and the vast amount of text data generated online present significant challenges for businesses in understanding public opinion and brand perception. While existing AI monitoring tools have focused on analyzing large volumes of text to automatically extract insights (for example, via topic modeling), an important data modality that frequently co-occurs with the textual content is often left out of the analysis: the time-related context. This type of context can either be intrinsic (like the publication timestamp of a document) or extrinsic (like external time series correlated with the events described in the documents). Time-unaware algorithms, like the standard Latent Dirichlet Allocation (LDA) topic model, are unable to capture this valuable source of information.
  
  The goal of this Industrial Doctorate project is to design original topic models that include contextual time-related data in order to solve specific business problems. In particular, we pretend to tackle two separate problems: first, the development of a model for time series regression through topic modeling that can be used as part of a framework for the quantification of reputational risk; second, the development of a time-aware topic model that features a stable and efficient optimization algorithm suitable for large collections of very short texts, like those present in microblogging sites such as Twitter.
  
  The problem of time series regression through topic modeling is motivated by the observation that an external time series of numerical data and a sequence of time-ordered documents are often linked: for example, the stock value of a company can exhibit correlations with news about that company. Our goal was to model the impact that the underlying themes discussed in the text data have on the time series. To do so, we introduced an original topic model, Time Series Impact Through Topic Modeling (TSITM), that includes contextual data by coupling LDA with linear regression, using an elastic net prior to set to zero the impact of uncorrelated topics. The resulting topics act as explanatory variables for the regression of the numerical time series, which allows us to understand the time series movements based on the events described on the text data. We have tested our model on two datasets: first, we used political news to explain the US president’s disapproval ratings; then, we considered a corpus of economic news to explain the financial returns of four different multinational corporations.
  
  Our experiments indicate that an appropriate selection of hyperparameters (via repeated random subsampling validation and Bayesian optimization) leads to significant correlations: both an intrinsic baseline and state of the art methods were significantly outperformed by TSITM in MSE, MAE and out-of-sample R^2,, according to our hypothesis tests.
  
  The problem of using the internal publication timestamps of documents to develop time-aware topic models has notable precedents in the literature: the Topics over Time (ToT) model captured thematic changes in timestamped datasets by explicitly modeling publication dates jointly with word co-occurrence patterns. However, ToT was not approached in a fully Bayesian fashion, a flaw that makes it susceptible to stability problems, particularly when the task involves modeling a large collection of short texts. To address this issue, we proposed a fully Bayesian Topics over Time (BToT) model via the introduction of a conjugate prior to the Beta distribution. This prior acts as a regularization that prevents the online version of the algorithm from unstable updates when a topic is poorly represented in a mini-batch. The characteristics of this prior to the Beta distribution are studied here for the first time. Still, this model suffers from a difference in scale between the single-time observations and the multiplicity of words per document. A variation of BToT, Weighted Bayesian Topics over Time (WBToT), is proposed as a solution. In WBToT, publication dates are repeated a certain number of times per document, which balances the relative influence of words and timestamps along the inference process. We have tested our models on two datasets: a collection of over 200 years of US state-of-the-union (SOTU) addresses and a large-scale COVID-19 Twitter corpus of 10 million tweets. The results demonstrate that WBToT captures events better than LDA and other time-unaware topic models; furthermore, the stability of the online optimization algorithm in WBToT allows for its application to problems that are intractable for standard ToT.
  
  The introduction of the TSITM and WBToT models had distinct motivations and served different purposes, but they both highlighted the importance of modeling textual data with time-related metadata jointly. Capturing the complex interaction of these two data modalities posed similar obstacles in both cases, so the methods and strategies we developed to tackle the challenges shared many common elements. We hope that the formalism presented in this thesis is general enough to serve as a foundation for future topic models with temporal context.
  
  Given the applied, industry-focused nature of this Doctorate program, we also emphasized the commercial applications of the algorithms described above. A walkthrough of some of the most remarkable products built on top of this technology was presented, and customer use cases illustrated the interest of the research presented in this thesis.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: