Modelo predictivo para la detección anticipada de ciberataques en entornos de IoT

Nelson Arias Chevez; Iván Ponce Vélez; Edison Javier Guaña Moya

Ayuda

Modelo predictivo para la detección anticipada de ciberataques en entornos de IoT

Arias Chevez, Nelson ^[1] ; Ponce Vélez, Iván ^[1] ; Guaña Moya, Javier ^[2]
1. [1] Universidad Técnica Estatal de Quevedo
  
  Universidad Técnica Estatal de Quevedo
  
  Quevedo, Ecuador
2. [2] Instituto Superior Universitario Japón
Localización: Arcana Scientific Journal, ISSN-e 3121-2557, Vol. 3, Nº. 1, 2025, págs. 20-37
Idioma: español
Títulos paralelos:
- Predictive model for early detection of cyberattacks in IoT environments
Enlaces
- Texto completo (pdf)
- Texto completo
Resumen
- español
  El estudio tuvo por objetivo desarrollar y evaluar un modelo predictivo para la detección anticipada de ciberataques en entornos de IoT, dada la creciente criticidad de estos sistemas. Objetivo: Se analizó el conjunto CICIOT2023, que contempló 46.686.747 instancias y 47 atributos con 33 tipos de ataques agrupados en siete familias. Metodología: La metodología utilizó el proceso KDD: se combinaron 169 archivos CSV usando ETL (SSIS/SQL Server), se limpiaron y transformaron las variables, se creó una etiqueta para cada familia de ataque y se aplicó un análisis de correlación para reducir datos y eliminar la colinealidad. Se utilizó Python/Colab para el modelado, dividiendo los datos en un 70% para entrenamiento y un 30% para prueba, además de aplicar validación cruzada. Se compararon los métodos Random Forest, Decision Tree, Gradient Boosting, KNN, SVM, Logistic Regression y Naïve Bayes. Resultados: Los resultados mostraron que TCP fue el protocolo más atacado (47,05%), seguido de UDP (21,18%) e ICMP (16,37%); la familia DDoS concentró el 72,79% de los eventos, mientras que fuerza bruta registró el 0,03%. En el desempeño predictivo, Random Forest y Gradient Boosting lograron las mejores métricas, con precisiones de aproximadamente 0,993 y R² positivos. Esto fue mejor que Decision Tree, que tuvo una exactitud de alrededor de 0,994, y KNN, que alcanzó aproximadamente 0,988. En cambio, SVM, Logistic Regression y Naïve Bayes presentaron rendimientos inferiores y R² negativos, con confusiones entre DoS y DDoS. Conclusiones: Se llegó a la conclusión de que los grupos de datos basados en árboles son más efectivos para predecir ataques en IoT, y que combinar ETL + KDD + ML fue una forma efectiva de poner en práctica el análisis de seguridad. Se recomendó validar en escenarios productivos heterogéneos y explorar técnicas de aprendizaje profundo y detección en línea para mejorar la adaptabilidad.
- English
  The study aimed to develop and evaluate a predictive model for the early detection of cyberattacks in IoT environments, given the increasing criticality of these systems. Objective: The CICIOT2023 dataset was analyzed, comprising 46,686,747 instances and 47 attributes, with 33 attack types grouped into seven families. Methodology: The methodology employed the KDD process: 169 CSV files were combined using ETL (SSIS/SQL Server), variables were cleaned and transformed, a label was created for each attack family, and correlation analysis was applied to reduce data and eliminate multicollinearity. Python/Colab was used for modeling, splitting the data into 70% for training and 30% for testing, and applying cross-validation. The Random Forest, Decision Tree, Gradient Boosting, KNN, SVM, Logistic Regression, and Naïve Bayes methods were compared. Results: The results showed that TCP was the most attacked protocol (47.05%), followed by UDP (21.18%) and ICMP (16.37%); the DDoS family accounted for 72.79% of the events, while brute force accounted for 0.03%. In predictive performance, Random Forest and Gradient Boosting achieved the best metrics, with accuracies of approximately 0.993 and positive R² values. This was better than Decision Tree, which had an accuracy of around 0.994, and KNN, which reached approximately 0.988. In contrast, SVM, Logistic Regression, and Naïve Bayes exhibited inferior performance and negative R² values, with confusion between DoS and DDoS. Conclusions: It was concluded that tree-based data groups are more effective at predicting IoT attacks, and that combining ETL + KDD + ML was an effective way to implement security analysis. It was recommended to validate in heterogeneous production environments and to explore deep learning and online detection techniques to improve adaptability.