Metodología - Nowcast de Pobreza
Resumen Ejecutivo
El nowcast de pobreza utiliza un modelo de panel departamental con Gradient Boosting Regressor (GBR) que predice cambios año-a-año en tasas de pobreza para 24 departamentos. El modelo combina indicadores económicos departamentales (crédito, empleo) con datos satelitales de luces nocturnas (NTL) para estimar pobreza monetaria con 6-12 meses de anticipación respecto a la publicación oficial anual de INEI.
1. Arquitectura del Modelo
1.1 Panel PovertyNowcaster con GBR
El modelo opera sobre un panel de 24 departamentos × 20 años (2004-2024). Usa un change-prediction approach: predice el cambio en pobreza, luego lo suma al valor observado en t-1.
pobrezad,t = pobrezad,t-1 + Δpobrezad,t
Donde:
- d: Departamento (24 unidades, Callao fusionado con Lima)
- Xd,t: Features departamentales agregadas a frecuencia anual
- pobrezad,t-1: Rezago de pobreza (muy predictivo)
- GBR: Gradient Boosting Regressor (scikit-learn) con 100 árboles, max_depth=3
1.2 ¿Por qué Change-Prediction?
Intentos anteriores de predecir niveles directos fallaron:
- Fixed-effects demeaning: RMSE = 24.5 pp (inestable con N=24, produce predicciones negativas)
- Level prediction con Ridge: RMSE = 13.7 pp (pierde info del rezago AR tras estandarización)
- Change prediction (actual): RMSE = 2.54 pp ✓ — preserva información del rezago
1.3 Gradient Boosting vs Ridge
GBR superó dramáticamente a Ridge lineal:
| Modelo | RMSE (pp) | Casos Extremos |
|---|---|---|
| Ridge (α=100) | 3.40 | Junín: -10pp, Moquegua: -6pp |
| GBR (100 trees) | 2.54 | Junín: +4pp, Moquegua: +0.5pp |
GBR captura no-linealidades en la relación entre crédito/empleo/NTL y pobreza que Ridge no puede modelar.
1.4 Manejo de COVID-19
Similar a GDP/Inflación, excluimos 2020-2021 de training Y evaluación:
- Resultado: RMSE mejora de 4.6 pp (con COVID) a 3.2 pp (sin COVID) — reducción de 30%
- "2018 structural break" = 100% COVID: pre-2018 RMSE=1.39pp vs post-2018 excl. COVID RMSE=1.57pp (p=0.79, NO significativo)
- El supuesto "quiebre en 2018" desapareció al excluir COVID — era un artefacto del shock 2020
2. Fuentes de Datos
2.1 Features Departamentales
Panel departamental mensual (25 depts × ~260 meses) agregado a frecuencia anual:
| Categoría | Series | Fuente |
|---|---|---|
| Crédito | Crédito total, consumo, MiPyme (YoY%) | BCRP |
| Depósitos | Depósitos vista, ahorro, plazo (YoY%) | BCRP |
| Electricidad | Producción eléctrica departamental (YoY%) | BCRP |
| Empleo | Afiliados pensiones (ONP/AFP, YoY%) | BCRP |
| Fiscal | Recaudación tributaria, gasto regional/local (YoY%) | MEF/SUNAT |
| Satelital | Luces nocturnas (NTL) suma departamental (log) | NOAA-VIIRS |
2.2 Luces Nocturnas (NTL) como Proxy
NTL mensual se agrega a anual y se transforma con log(1+x) para estabilizar varianza:
Ventajas:
- Cobertura universal (25 departamentos sin gaps)
- Frecuencia mensual → permite nowcasting intra-año
- Correlaciona negativamente con pobreza (más luz = menos pobreza)
- Sin rezago de publicación (~15 días desde fin de mes)
2.3 Target: Pobreza Monetaria Departamental (INEI)
Tasa de pobreza monetaria (% población bajo línea de pobreza) por departamento. Publicado anualmente con ~6-7 meses de rezago (ej: datos 2024 publicados en Mayo 2025).
Cobertura: 24 departamentos (Callao fusionado con Lima en datos oficiales), 2004-2024.
3. Desempeño y Validación
3.1 Backtest Anual (2012-2024, excl. COVID)
| Modelo | RMSE (pp) | MAE (pp) | Rel.RMSE |
|---|---|---|---|
| Panel GBR (change-pred) | 2.54 | 1.89 | 0.953 |
| AR(1) Departamental | 2.65 | 1.97 | 1.000 |
| Random Walk | 2.78 | 2.11 | 1.049 |
Primera vez que GBR supera AR(1) en backtests de pobreza (Rel.RMSE = 0.953, -4.7% error). Anteriormente Ridge no lograba vencer benchmarks naive.
3.2 Nowcasting Mensual (2012-2024)
El modelo también produce nowcasts mensuales usando rolling windows de 12 meses sobre el panel:
- RMSE mensual: ~4.3-4.5 pp (estable en meses 3, 6, 9, 12)
- Within-year noise: 0.5-0.7 pp (bien debajo de 2pp threshold)
- Monthly revisions: 0.6-0.7 pp (pequeñas y estables)
- Rel.RMSE vs AR1: 0.989 (-1.1% vs AR1) — ligeramente mejor que anual
El ruido intra-año es bajo, por lo que NO se requiere suavizado adicional.
3.3 Nowcast Actual (2024)
Pobreza Nacional 2024: 26.8%
24 departamentos | Panel completo a través de Nov-2024
4. Nowcasting Trimestral
Complemento a nowcasts anuales/mensuales: predicciones trimestrales usando desagregación temporal (Chow-Lin) para interpolar entre años.
4.1 Método Chow-Lin
Desagrega observaciones anuales a frecuencia trimestral usando indicadores de alta frecuencia como related series:
Ventajas:
- Preserva totales anuales (suma de 4 trimestres = valor anual)
- Captura variación intra-año usando indicadores mensuales agregados a trimestral
- Métodos GLS minimizan autocorrelación residual
Ver gráficos trimestrales para series desagregadas.
⚠️ Limitaciones
- N pequeño: Solo 24 departamentos → varianza alta en estimaciones departamentales. Nacional es más estable.
- Rezago de features: Algunos indicadores departamentales (crédito, empleo) tienen 1-2 meses de publication lag, limitando la anticipación del nowcast.
- Heterogeneidad regional: Relaciones crédito-pobreza pueden variar por departamento (ej: Lima vs Amazonas). GBR captura algo de no-linealidad pero no interacciones espaciales complejas.
- COVID como outlier extremo: Exclusión total de 2020-2021 reduce datos disponibles (de 20 años a 18 años efectivos). Trade-off necesario para evitar distorsión.
Referencias
Elbers, C., Lanjouw, J. O., & Lanjouw, P. (2003). "Micro-level estimation of poverty and inequality." Econometrica, 71(1), 355-364.
Zhao, X., Yu, B., Liu, Y., Chen, Z., Li, Q., Wang, C., & Wu, J. (2019). "Estimation of poverty using random forest regression with multi-source data: A case study in Bangladesh." Remote Sensing, 11(4), 375.
Jean, N., Burke, M., Xie, M., Davis, W. M., Lobell, D. B., & Ermon, S. (2016). "Combining satellite imagery and machine learning to predict poverty." Science, 353(6301), 790-794.
Chow, G. C., & Lin, A. L. (1971). "Best linear unbiased interpolation, distribution, and extrapolation of time series by related series." The Review of Economics and Statistics, 53(4), 372-375.
Código fuente disponible en el repositorio NEXUS
Ver: src/models/poverty.py, src/processing/spatial_disagg.py, scripts/run_poverty_backtest.py