Dario Xavier Mieles Macias, Ermenson Ricardo Ordoñez Avila
El presente estudio tiene como propósito analizar los modelos de minado de texto para la implementación de sistemas de predicción de plagio como herramientas modernas que deben ajustarse a los desafíos complejos de este problema de crecimiento continuo. Para ello se realizó una revisión sistemática de literatura enmarcada en parámetros PRISMA para selección de artículo y reducción de sesgo, identificación de cadenas de búsqueda en bases de datos como ACM, Science direct, IEEE xplore, Scopus considerando criterios de enfoque y contenido para evaluar cada artículo seleccionado. Entre las técnicas de minería de texto fueron más comunes los clasificadores específicamente, las redes neuronales y los árboles de decisión, también se identificaron técnicas de agrupamiento. El sistema de detección de plagio más utilizado es Turnitin, el modelo de minería más utilizado son las redes recurrentes (LSTM) cuya precisión fue del 100%, la recuperación de 97%, exactitud del 99% y una detección de plagio del 94%. En conclusión, las Universidades e institutos se han visto en la necesidad de implementar procesos de detección de plagio a través del uso de sistemas de detección, se ha considerado el empleo de técnicas de minería de texto que facilitan la detección y reconocimiento de elementos, similitudes, coincidencias y semejanzas que aportan en la comprobación de plagio en textos académicos; las redes recurrentes han presentado mejores resultados en diversos escenarios de detección, por ello, se sugieren como modelo de minería de datos de tipo predictivo.
The purpose of this study is to analyze text mining models for the implementation of plagiarism prediction systems as modern tools that must be adjusted to the complex challenges of this continuously growing problem. For this, a systematic review of the literature was carried out framed in PRISMA parameters for article selection and bias reduction, identification of search strings in databases such as ACM, Science direct, IEEE xplore, Scopus considering focus and content criteria to evaluate each study. selected item. Among the text mining techniques, specifically classifiers, neural networks and decision trees were more common, clustering techniques were also identified. The most used plagiarism detection system is Turnitin, the most used mining model is recurring networks (LSTM) whose accuracy was 100%, recovery 97%, accuracy 99% and plagiarism detection 94%. In conclusion, Universities and institutes have seen the need to implement plagiarism detection processes through the use of detection systems, the use of text mining techniques has been considered that facilitate the detection and recognition of elements, similarities , coincidences and similarities that contribute to the verification of plagiarism in academic texts; recurrent networks have presented better results in various detection scenarios, therefore, they are suggested as a predictive data mining model.
© 2001-2024 Fundación Dialnet · Todos los derechos reservados