Venezuela
Este artículo estudia tres técnicas de modelado de tópicos, o reducción de la dimensionalidad, para la recuperación de la semántica en matrices dispersas de bolsas de palabras y las aplica sobre tres conjuntos de datos de texto tomados de la red social Twitter. Se trata de técnicas destinadas al modelado de tópicos o conceptos latentes en conjuntos desestructurados de datos de texto, también conocidas como métodos para modelar la semántica latente de emisiones comunicativas. Las tres técnicas son: el análisis semántico latente o LSA, el análisis semántico latente de índole probabilística o PLSA y la atribución o adjudicación latente de Dirichlet o LDA. El artículo estudia los fundamentos teóricos que subyacen al desarrollo de sus algoritmos y aplica sus implementaciones, en el lenguaje de programación Python, a un corpus de documentos tomados de la red social Twitter. El corpus consta de tres conjuntos de datos de texto en los cuales se busca reconstruir la semántica latente del concepto “derechos humanos”, tal y como se expresa en emisiones de usuarios de Twitter provenientes del entorno Iberoamericano. Al analizar los resultados obtenidos en las aplicaciones se pudo comprobar que el algoritmo de la LDA ofrece una semántica más general y profunda del concepto estudiado, al atravesar transversalmente los documentos, que la que arroja el algoritmo del PLSA, cuyos resultados dan mejor cuenta de la semántica ad intra de los documentos. Al mismo tiempo, fue posible constatar que los algoritmos que implementan modelos de inferencia bayesiana son más eficientes para la tarea de modelado de tópicos que los algoritmos que calculan valores singulares en matrices factorizadas. También se pudo comprobar un manejo competente de la semántica de la noción de “derechos humanos” por parte de los usuarios de esa red social, el cual evidencia familiaridad con el significado teórico e institucional de dicho concepto. No obstante, ese manejo se mantiene siempre en un nivel elevado de convencionalidad.
The following paper focuses upon three techniques of topic modeling, or dimensionality reduction, aimed at reconstructing the semantics of sparse data text, and presents their applications to three data sets retrieved from Twitter. These techniques usually model latent topics or concepts on unstructured data sets, also known as methods intended to model the latent semantics of communicative emissions. The three techniques studied are: the Latent Semantic Analysis or LSA, the Probabilistic Latent Semantic Analysis or PLSA and the Latent Dirichlet Allocation or LDA. The paper deals with the theoretical foundations that underlie their algorithms and applies their implementations, in Python, on a corpus of documents taken from the social network Twitter. The corpus consists of three sets of data text whose analysis attempts to reconstruct the latent semantic of the concept “Rights”, as it is revealed in the emissions by users of Twitter from the IberoAmerican region. It was possible to confirm that the LDA algorithm offers a broader and a more general semantic of the concept “Rights” than that offered by the PLSA algorithm, as the LDA results retrieved a more transversal semantic throughout all the documents. Conversely, the PLSA algorithm gives a better perspective of the topics related to the studied term ad intra the documents of the corpus. It was also established that the models that implement Bayesian inference are better for the task of topic modeling than those algorithms, such as the LSA, that calculate singular value decompositions in factorized matrices. It was observed a competent understanding of the semantic of the concept of “Rights” among the users of Twitter, which evidences some familiarity with the institutional and theoretical meaning of the term. This kind of semantic competence, however, never surpassed a conventional understanding of the notion of “Rights”.
© 2001-2026 Fundación Dialnet · Todos los derechos reservados