Los datos faltantes son todo un reto en los análisis estadísticos. La imputación, entendida como el proceso de reemplazar los datos faltantes con un valor estimado, es un problema regular en los proyectos de investigación. Existen muchos modelos y subrutinas de diversos software destinadas para este proceso, sin embargo, la selección del modelo de imputación adecuado al tipo de datos disponibles es trascendental para la fiabilidad del resultado. En este estudio se trabaja con una tabla de datos cruzada que involucran series de tiempo (datos panel) con un 24% de datos faltantes. Con el objetivo de imputar estos datos, se utilizó un modelo de imputación múltiple y se agregaron algunas restricciones al sistema. El principal aporte de este ejercicio es mostrar que un buen proceso de imputación requiere del diagnóstico del problema, de la configuración del modelo de imputación y, finalmente, de la verificación de la calidad de los datos imputados.
Missing data is a challenge for statistical analysis. Imputation, as the process of replacing missing data with an estimated value, is a regular problem in any research project. There are many imputation models and packages that make this process. Nevertheless, the election of the adequate imputation model is transcendental for the results reliability. In this study we work with a Time-Series Cross-Section dataset (TSCS) and 24% of missing data. We used a multiple imputation model and aggregated some prior information to the system. The principal contribution to this exercise is to show that a good imputation requires (beside the software) a problem diagnosis, the configurations of the model imputation, and finally, the diagnostic of the quality of the data imputation.
© 2001-2024 Fundación Dialnet · Todos los derechos reservados