Imputación de datos faltantes del Censo de Población y Vivienda de Uruguay utilizando técnicas de estadística espacial

Eugenia Riaño

Ayuda

Imputación de datos faltantes del Censo de Población y Vivienda de Uruguay utilizando técnicas de estadística espacial

Autores: Eugenia Riaño
Localización: SaberEs, ISSN-e 1852-4222, Vol. 11, Nº. 2, 2019, págs. 153-169
Idioma: español
Títulos paralelos:
- Missing data imputation using spatial statistics techniques applied to Uruguay Census of Population and Housing
Enlaces
- Texto completo (pdf)
Resumen
- español
  En general, la calidad y cobertura del Censo de Población y Vivienda de Uruguay del año 2011 fue calificada como positiva. Sin embargo, su implementación no estuvo exenta de inconvenientes. La omisión se concentró en zonas socioeconómicamente más vulnerables, lo que afectaría el mecanismo utilizado por el gobierno para seleccionar la población beneficiaria de programas de transferencias monetarias. El patrón de la población elegible y de la propia omisión hace necesaria una regionalización previa a la imputación, dada la distribución espacial heterogénea en el mapa de la variable de interés. Las regiones se construyen mediante el algoritmo de árboles oblicuos de decisión. Se ajustan modelos autorregresivos espaciales en cada región que son evaluados utilizando validación cruzada, y se comparan los resultados con el de un modelo global. Los modelos con menor error dentro de cada región muestran un rezago similar medido en distancia, a excepción de un caso. El modelo global presenta un error del mismo orden que los modelos locales, pero presenta autocorrelación espacial en los residuos, por lo que se decide trabajar con los modelos obtenidos por región. Los resultados de la imputación muestran una subestimación de la población elegible de un 5% sobre el total estimado con datos censales.
- English
  Uruguay National Census was quality and coverage positively evaluated in general, attaining international standard requirements. However, the data collecting process had some difficulties. The omission are concentrated in segments socioeconomically vulnerable. This could have an impact over the algorithm performed by the government to select the beneficiary population of cash-transfer programs. The heterogeneous spatial pattern of the target population and of the omission itself makes necessary define regions for the imputation of the missing data. Regions are obtained by means of spatial oblique decision trees. Spatial Autorregresive models are adjusted for each region. The models are assessed using cross-validation methods. Results are compared with the performance of a global model for the whole map. Except by one region, models that minimize cross-validation's errors show a similar lag in each region. The cross-validation error for the global model is quite similar. Nevertheless, spatial autocorrelation is detected according to the Moran test for residuals. Hence, the data imputation is performed by regions, with local SAR models, selecting the lag according to the cross-validation error. Results show that target population is underestimated approximately by a 5% over the total obtained with census data.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: