Resumen de Combinación de clustering, selección de atributos y métodos ontológicos para la clasificación semántica de texto

Ayuda

Resumen de Combinación de clustering, selección de atributos y métodos ontológicos para la clasificación semántica de texto

Alexander Mackenzie Rivero

español
Con el aumento exponencial en la cantidad de datos textuales disponibles en Internet desde fuentes diversas como redes sociales, blogs/foros, sitios web, correos electrónicos, bibliotecas en línea, etc., se ha hecho necesaria la utilización de la Inteligencia Artificial en plataformas digitales, como la aplicación de métodos de aprendizaje profundo y de reconocimiento de patrones, para que esta información pueda ser aprovechada por todo tipo de modelos de negocios, estudios de mercado, planes de marketing, campañas políticas o toma de decisiones estratégicas entre otros, con la finalidad de hacer frente a la competencia y dar respuesta de manera eficiente. El objetivo de esta tesis doctoral fue desarrollar un modelo que combina clustering, selección de atributos y métodos ontológicos para la clasificación semántica de texto, que permita estructurar una metodología aplicable en conjuntos de datos textuales y así mejorar la clasificación automática de texto. El modelo propuesto en esta tesis doctoral se realizó siguiendo los siguientes objetivos específicos: redactar el estado del arte relacionado con la temática estudiada; conformación de un conjunto de datos textuales lo suficientemente extenso para la aplicación de las diferentes técnicas de análisis de datos; desarrollo de una metodología para la clasificación semántica de datos textuales y evaluación de los resultados obtenidos. La metodología consistió de 9 etapas, las 5 primeras (preprocesamiento, clustering, se- lección de atributos, clasificación y test estadístico. Posteriormente 4 etapas adicionales correspondientes análisis ontológico (validación del clúster, análisis semántico, interpretación y representación de relaciones). Se pudo determinar que haciendo SToWVector junto con selección de atributos mediante el wrapper MOES (estrategia de búsqueda) y NaiveBayesMultinomial (evaluador) con ACC (métrica), se obtienen mejores resultados con el clasificador NaiveBayesMultinomial que con otros métodos de clasificación evaluados. Además el método de búsqueda ENORA ha sido utilizado y evaluado demostrando ser un método eficaz para la selección de atributos en datos textuales. De igual manera se pudo dar significado a los dos clústeres obtenidos, logrando identificar un concepto para cada clúster. Clúster 1: UE-G20-G77-MEC y clúster 2: Resto del mundo. Ello permitió establecer una relación directa entre los clústers.
English
With the exponential increase in the amount of textual data available on the Internet from various sources such as: social networks, blogs/forums, websites, emails, online libraries, etc. It has made necessary the use of artificial intelligence in digital platforms, the application of parallel processing, deep learning and pattern recognition so that this information can be used by all kinds of models business, market research, marketing plans, political campaigns or making strategic decisions among others, in order to deal with competition and respond efficiently. This doctoral thesis is focused on developing a model that allows combine clustering, attribute selection and ontological methods for the semantic classification of text, which allows tructuring an applicable methodology in textual data sets to improve the automatic classification of text. The model proposed in this doctoral thesis is carried out following the following specific objectives: draft the status of the art related to the theme studied, conformation of a set of textual data extensive enough for the application of different data analysis techniques, development of a methodology for the semantic classification of textual data and evaluation of the results obtained. The methodology consisted of 9 stages, the first 5 (preprocessing, clustering, attribute selection, classification, and statistical test. Finally, 4 additional stages corresponding to ontological analysis (cluster validation, semantic analysis, interpretation, and relationship representation). Could determine that by doing SToWVector together with feature selection using the MOES wrapper (search strategy) and NaiveBayesMultinomial (evaluator) with ACC (metric), better results are obtained with the NaiveBayesMultinomial classifier than with other classification methods evaluated, in addition, the ENORA search method has been used and evaluated, proving to be an effective method for the selection of attributes in text data. In the same way, it was possible to give meaning to the two clusters obtained, managing to identify a concept for each cluster. Cluster 1: EU−G20−G77−MEC and cluster 2: Rest of the world. This allowed us to establish a direct relationship between the clusters.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Coordinado por: