Resumen de Arquitectura (ADVI) para la detección de vocabulario de ciberbullying en internet combinando técnicas de big data analytics y web semántica

Ivan Castillo Zúñiga, Francisco Javier Luna Rosas, Jaime Muñoz Arteaga, Jaime Iván López Veyna

  • español

    Este artículo presenta una Arquitectura de Software inspirada en métodos de Big Data Analytics y Web Semántica con el objetivo de analizar grandes cantidades de información en la Web y obtener conocimiento que apoye en la toma de decisiones a organizaciones, empresas y sociedad en general.

    A efectos de probar la arquitectura y sus métodos, como caso de estudio se analizaron páginas Web sobre el Ciberbullying. Fenómeno de acoso escolar que sufren los niños y adolescentes haciendo uso de Tecnologías de la Información para acosar, hostigar e intimidar a un individuo a través de ataques personales, divulgación de información confidencial o falsa.

    El proceso utiliza un Crawler para localizar y descargar la información en la Web. En la recuperación del vocabulario se implementó una estrategia genética en paralelo que integra técnicas de Web Semántica (ontologías) y Procesamiento de Lenguaje Natural (PLN) (Tokenización, Stop Word, Frecuencia de Término (TF) y Frecuencia de Término con Frecuencia Inversa del Documento (TF-IDF)), métodos de lematización y sinónimos, con el propósito de recuperar más información. Para obtener conocimiento se utilizaron los algoritmos de Aprendizaje Supervisado Arboles, Máquinas de Soporte Vectorial (MSV) y Bosques Aleatorios.

    Mediante el método propuesto fue posible integrar un proceso completo que inicia obteniendo datos en la Web y termina con la detección de vocabulario (conocimiento), uniendo distintas técnicas de manera natural. Los resultados muestran que los porcentajes en la detección del vocabulario de Ciberbullying son elevados logrando un 95% de precisión. Además con la estrategia genética se logra optimizar el tiempo de procesamiento en la recuperación del vocabulario con un ahorro del 302% comparado con el proceso secuencial y se obtuvo un conjunto de datos robusto para las pruebas. Por otro lado el uso de ontologías semánticas facilitó el análisis de la información generando (n) conjuntos de datos con distintas vistas.

  • English

    This paper presents a Software Architecture inspired by methods of Big Data Analytics and Semantic Web with the objective of analyzing large amounts of information on the Web and gain knowledge to support decision making in organizations, companies and society in general.

    In order to test the architecture and methods, as a case study Web pages on Cyberbullying were analyzed. Phenomenon of bullying experienced by children and adolescents using information technology to stalk, harass and intimidate an individual through personal attacks or false disclosure of confidential information.

    The process uses a Crawler to locate and download the information on the Web. In recovering of the vocabulary was implemented a genetic strategy in parallel that integrates Web Semantic techniques (ontologies) and Natural Language Processing (NLP) (Tokenizing, Stop Word, Term Frequency (TF), and Term Frequency with Inverse Document Frequency (TF-IDF)), methods of stemming and synonyms, with the purpose to retrieve more information. To obtain knowledge Supervised Learning algorithm Trees, Support Vector Machines (SVM) and Random Forests were used.

    Through the proposed method it was possible to integrate a complete process that starts getting data from the Web, and ends with the vocabulary detection (knowledge), linking different techniques in a natural way. The outcomes show that percentages in the vocabulary detection of Cyberbullying are highly gotten, letting us achieving a 95% of accuracy. Furthermore, with the genetic strategy it is possible to optimize the processing time in the vocabulary’s recovery as far as 302% compared to the sequential process, and a huge data set was gotten for the tests. On the other hand the use of semantic ontologies help to facilitate the analysis of information, generating (n) data set with different perspectives.

