ScraCOVID-19: Plataforma informativa de contenido digital mediante Scraping y almacenamiento NoSQL

Ariel Guillermo Sánchez Paipilla; Mónica Katherine Durán Vaca; Angela Maria Gonzalez Amarillo; Javier Antonio Ballesteros Ricaurte

Ayuda

ScraCOVID-19: Plataforma informativa de contenido digital mediante Scraping y almacenamiento NoSQL

Sánchez Paipilla, Ariel Guillermo ^[1] ; Durán Vaca, Mónica Katherine ^[1] ; González Amarillo, Angela María ^[2] ; Ballesteros Ricaurte, Javier Antonio ^[1]
1. [1] Universidad Pedagógica y Tecnológica de Colombia
  
  Universidad Pedagógica y Tecnológica de Colombia
  
  Colombia
2. [2] Universidad Nacional Abierta y a Distancia
  
  Universidad Nacional Abierta y a Distancia
  
  Colombia
Localización: INGE CUC, ISSN 0122-6517, ISSN-e 2382-4700, Vol. 16, Nº. 2, 2020 (Ejemplar dedicado a: (Julio-Diciembre))
Idioma: español
Títulos paralelos:
- ScraCOVID-19: Digital content information platform through Scraping and NoSQL storage
Enlaces
- Texto completo (pdf)
Resumen
- español
  Introducción: Mantener informada a la comunidad sobre la reciente pandemia causada por el COVID-19, se ha convertido en una necesidad haciéndose indispensable el uso de canales de comunicación confiables, información precisa y basada en la evidencia. Objetivo: Este trabajo tiene como objetivo principal crear ScraCOVID-19 una plataforma web de contenido digital dedicada a acceder a las noticias actualizadas y de manera rápida. Como caso de estudio se manejan cuatro medios digitales con licencia a nivel nacional. Las noticias se presentan de manera resumida para permitir a los lectores, en función de su interés, leer las noticias mediante algunos filtros como: desempleo, educación, maltrato, corrupción y discriminación. Metodología: ScraCOVID-19 se crea a partir de la técnica de extracción Scraping, mediante el uso de BeautifulSoup, librería que permite extraer información en formato HTML de varios sitios web, utilizando el lenguaje de programación Python. Resultado: Se describe un modelo para realizar la categorización que extrae información útil para clasificar información en categorías haciendo referencia a las URL. Conclusión: A partir de técnicas de extracción utilizadas en conjunto con herramientas de almacenamiento de datos no estructurados, se obtiene información de diferentes páginas web y se administran todos los datos recogidos en una misma web generada dinámicamente.
- English
  Introduction: Keeping the community informed about the recent pandemic caused by COVID-19 has become a necessity, making the use of reliable communication channels accurate and evidence-based information indispensable. Objective: His work has as main objective to create ScraCOVID-19 on a connected digital content web platform to access updated news quickly. As a case study, four digital media are managed with national license. The news is presented in a summarized way to allow readers, depending on their interest, to read the news through some filters such as: unemployment, education, abuse, corruption and discrimination. Methodology: ScraCOVID-19 is created from the Scraping extraction technique, using BeautifulSoup, a library that allows information in HTML format to be extracted from various websites, using the Python programming language. Results: As a result, a categorization model is described that extracts useful information to classify information into categories by referring to the URL. Conclusion: It is concluded that, from extraction techniques used in conjunction with unstructured data storage tools, information is obtained from different web pages and all the data collected on the same dynamically generated web is managed.