Sistema inteligente para la detección de léxico de cibercrimen en sitios web

Ivan Castillo Zúñiga; Jaime Iván López Veyna; Francisco Javier Luna Rosas; Gustavo Tirado Estrada

Ayuda

Sistema inteligente para la detección de léxico de cibercrimen en sitios web

Iván Castillo-Zúñiga ^[1] ; Jaime Iván López-Veyna ^[1] ; Francisco Javier Luna-Rosas ^[1] ; Gustavo Tirado-Estrada ^[1]
1. [1] Tecnológico Nacional de México
  
  Tecnológico Nacional de México
  
  México
Localización: DYNA new technologies, ISSN-e 2386-8406, Vol. 7, Nº. 1, 2020
Idioma: español
Títulos paralelos:
- Intelligent system for detection of cybercrime vocabulary on websites
Texto completo no disponible (Saber más ...)
Resumen
- español
  Este artículo presenta un sistema inteligente para detectar léxico de Cibercrimen en sitios Web, con el propósito de encontrar conocimiento sobre grandes cantidades de información en Internet en un tiempo de respuesta aceptable. La arquitectura propuesta utiliza un Web Scraper para ubicar y descargar la información de Internet. Para obtener el corpus lingüístico de Cibercrimen, se ejecuta una estrategia genética en paralelo, la cual distribuye los procesos de limpieza de páginas Web y las técnicas para el Procesamiento de Lenguaje Natural (tokenización, stop words, frecuencia de término, frecuencia de término con frecuencia inversa del documento), en conjunto con métodos de lematización y sinónimos. Para obtener conocimiento se generó un dataset que hace uso de una ontología semántica con las características generales del Cibercrimen. Para evaluar la eficiencia del modelo se utilizaron los algoritmos de aprendizaje supervisado: potenciación, red neuronal y bosques aleatorios en paralelo. Los resultados revelan un 97.64% de precisión en la detección del vocabulario de Cibercrimen, los cuales fueron corroborados mediante la técnica de validación cruzada LOOCV, además, se obtuvo un ahorro de tiempo en la recuperación de datos y búsqueda de conocimiento del 292% y 1220% respectivamente usando procesamiento paralelo.
- English
  This article presents an intelligent system to detect Cybercrime lexicon on Web sites,to find knowledge about large amounts of information on the Internet in an acceptable response time. The proposed architecture uses a Web Scraper to locate and download information from the Internet. To obtain the linguistic corpus of Cybercrime, a parallel genetic strategy is executed, which distributes the processes of cleaning Web pages and the techniques for Natural Language Processing (tokenization, stop words, frequency of term, term frequency with inverse document frequency), together with lemmatization methods and synonyms. To obtain knowledge, a dataset was generated that makes use of a semantic ontology with the general characteristics of Cybercrime. To evaluate the efficiency of the model, supervised learning algorithms were used: Boosting, Neural Network and Random Forests in parallel. The results reveal 97.64% accuracy in the detection of Cybercrime vocabulary, which was verified by the LOOCV cross-validation technique, in addition, a time-saving was obtained in data recovery and knowledge search of 292% and 1220% respectively using parallel processing.