Técnicas big data: análisis de textos a gran escala para la investigación científica y periodística

Carlos Arcila Calderón; Eduar Barbosa Caro; Francisco Cabezuelo-Lorenzo

Ayuda

Técnicas big data: análisis de textos a gran escala para la investigación científica y periodística

Carlos Arcila-Calderón ^[1] ; Eduar Barbosa-Caro ^[2] ; Francisco Cabezuelo Lorenzo ^[3]
1. [1] Universidad de Salamanca
  
  Universidad de Salamanca
  
  Salamanca, España
2. [2] Universidad del Norte
  
  Universidad del Norte
  
  Colombia
3. [3] Universidad de Valladolid
  
  Universidad de Valladolid
  
  Valladolid, España
Mostrar afiliaciones +
Localización: El profesional de la información, ISSN-e 1699-2407, ISSN 1386-6710, Vol. 25, Nº 4, 2016 (Ejemplar dedicado a: Datos), págs. 623-631
Idioma: español
Títulos paralelos:
- Big data techniques: Large-scale text analysis for scientific and journalistic research
Enlaces
- Texto completo

Dialnet Métricas: 30 Citas

Resumen
- español
  Este trabajo conceptualiza el término big data y describe su importancia en el campo de la investigación científica en ciencias sociales y en las prácticas periodísticas. Se explican técnicas de análisis de datos textuales a gran escala como el análisis automatizado de contenidos, la minería de datos (data mining), el aprendizaje automatizado (machine learning), el modelamiento de temas (topic modeling) y el análisis de sentimientos (sentiment analysis), que pueden servir para la generación de conocimiento en ciencias sociales y de noticias en periodismo. Se expone cuál es la infraestructura necesaria para el análisis de big data a través del despliegue de centros de cómputo distribuido y se valora el uso de las principales herramientas para la obtención de información a través de software comerciales y de paquetes de programación como Python o R.
- English
  This paper conceptualizes the term big data and describes its relevance in social research and journalistic practices. We explain large-scale text analysis techniques such as automated content analysis, data mining, machine learning, topic modeling, and sentiment analysis, which may help scientific discovery in social sciences and news production in journalism. We explain the required e-infrastructure for big data analysis with the use of cloud computing and we asses the use of the main packages and libraries for information retrieval and analysis in commercial software and programming languages such as Python or R.