Metodología - Nowcast de Pobreza

Resumen Ejecutivo

El nowcast de pobreza utiliza un modelo de panel departamental con Gradient Boosting Regressor (GBR) que predice cambios año-a-año en tasas de pobreza para 24 departamentos. El modelo combina indicadores económicos departamentales (crédito, empleo) con datos satelitales de luces nocturnas (NTL) para estimar pobreza monetaria con 6-12 meses de anticipación respecto a la publicación oficial anual de INEI.

RMSE Anual
2.54 pp
excl. COVID
vs AR(1)
-4.2%
Rel.RMSE = 0.953
GBR vs Ridge
-25%
RMSE reduction

1. Arquitectura del Modelo

1.1 Panel PovertyNowcaster con GBR

El modelo opera sobre un panel de 24 departamentos × 20 años (2004-2024). Usa un change-prediction approach: predice el cambio en pobreza, luego lo suma al valor observado en t-1.

Δpobrezad,t = GBR(Xd,t, pobrezad,t-1)
pobrezad,t = pobrezad,t-1 + Δpobrezad,t

Donde:

  • d: Departamento (24 unidades, Callao fusionado con Lima)
  • Xd,t: Features departamentales agregadas a frecuencia anual
  • pobrezad,t-1: Rezago de pobreza (muy predictivo)
  • GBR: Gradient Boosting Regressor (scikit-learn) con 100 árboles, max_depth=3

1.2 ¿Por qué Change-Prediction?

Intentos anteriores de predecir niveles directos fallaron:

  • Fixed-effects demeaning: RMSE = 24.5 pp (inestable con N=24, produce predicciones negativas)
  • Level prediction con Ridge: RMSE = 13.7 pp (pierde info del rezago AR tras estandarización)
  • Change prediction (actual): RMSE = 2.54 pp ✓ — preserva información del rezago

1.3 Gradient Boosting vs Ridge

GBR superó dramáticamente a Ridge lineal:

ModeloRMSE (pp)Casos Extremos
Ridge (α=100)3.40Junín: -10pp, Moquegua: -6pp
GBR (100 trees)2.54Junín: +4pp, Moquegua: +0.5pp

GBR captura no-linealidades en la relación entre crédito/empleo/NTL y pobreza que Ridge no puede modelar.

1.4 Manejo de COVID-19

Similar a GDP/Inflación, excluimos 2020-2021 de training Y evaluación:

  • Resultado: RMSE mejora de 4.6 pp (con COVID) a 3.2 pp (sin COVID) — reducción de 30%
  • "2018 structural break" = 100% COVID: pre-2018 RMSE=1.39pp vs post-2018 excl. COVID RMSE=1.57pp (p=0.79, NO significativo)
  • El supuesto "quiebre en 2018" desapareció al excluir COVID — era un artefacto del shock 2020

2. Fuentes de Datos

2.1 Features Departamentales

Panel departamental mensual (25 depts × ~260 meses) agregado a frecuencia anual:

CategoríaSeriesFuente
CréditoCrédito total, consumo, MiPyme (YoY%)BCRP
DepósitosDepósitos vista, ahorro, plazo (YoY%)BCRP
ElectricidadProducción eléctrica departamental (YoY%)BCRP
EmpleoAfiliados pensiones (ONP/AFP, YoY%)BCRP
FiscalRecaudación tributaria, gasto regional/local (YoY%)MEF/SUNAT
SatelitalLuces nocturnas (NTL) suma departamental (log)NOAA-VIIRS

2.2 Luces Nocturnas (NTL) como Proxy

NTL mensual se agrega a anual y se transforma con log(1+x) para estabilizar varianza:

NTL_annuald,t = log(1 + mean(NTL_monthlyd,t))

Ventajas:

  • Cobertura universal (25 departamentos sin gaps)
  • Frecuencia mensual → permite nowcasting intra-año
  • Correlaciona negativamente con pobreza (más luz = menos pobreza)
  • Sin rezago de publicación (~15 días desde fin de mes)

2.3 Target: Pobreza Monetaria Departamental (INEI)

Tasa de pobreza monetaria (% población bajo línea de pobreza) por departamento. Publicado anualmente con ~6-7 meses de rezago (ej: datos 2024 publicados en Mayo 2025).

Cobertura: 24 departamentos (Callao fusionado con Lima en datos oficiales), 2004-2024.

3. Desempeño y Validación

3.1 Backtest Anual (2012-2024, excl. COVID)

ModeloRMSE (pp)MAE (pp)Rel.RMSE
Panel GBR (change-pred)2.541.890.953
AR(1) Departamental2.651.971.000
Random Walk2.782.111.049

Primera vez que GBR supera AR(1) en backtests de pobreza (Rel.RMSE = 0.953, -4.7% error). Anteriormente Ridge no lograba vencer benchmarks naive.

3.2 Nowcasting Mensual (2012-2024)

El modelo también produce nowcasts mensuales usando rolling windows de 12 meses sobre el panel:

  • RMSE mensual: ~4.3-4.5 pp (estable en meses 3, 6, 9, 12)
  • Within-year noise: 0.5-0.7 pp (bien debajo de 2pp threshold)
  • Monthly revisions: 0.6-0.7 pp (pequeñas y estables)
  • Rel.RMSE vs AR1: 0.989 (-1.1% vs AR1) — ligeramente mejor que anual

El ruido intra-año es bajo, por lo que NO se requiere suavizado adicional.

3.3 Nowcast Actual (2024)

Pobreza Nacional 2024: 26.8%

24 departamentos | Panel completo a través de Nov-2024

4. Nowcasting Trimestral

Complemento a nowcasts anuales/mensuales: predicciones trimestrales usando desagregación temporal (Chow-Lin) para interpolar entre años.

4.1 Método Chow-Lin

Desagrega observaciones anuales a frecuencia trimestral usando indicadores de alta frecuencia como related series:

pobreza_quarterly = ChowLin(pobreza_annual, related=[empleo_q, credito_q, ntl_q])

Ventajas:

  • Preserva totales anuales (suma de 4 trimestres = valor anual)
  • Captura variación intra-año usando indicadores mensuales agregados a trimestral
  • Métodos GLS minimizan autocorrelación residual

Ver gráficos trimestrales para series desagregadas.

⚠️ Limitaciones

  • N pequeño: Solo 24 departamentos → varianza alta en estimaciones departamentales. Nacional es más estable.
  • Rezago de features: Algunos indicadores departamentales (crédito, empleo) tienen 1-2 meses de publication lag, limitando la anticipación del nowcast.
  • Heterogeneidad regional: Relaciones crédito-pobreza pueden variar por departamento (ej: Lima vs Amazonas). GBR captura algo de no-linealidad pero no interacciones espaciales complejas.
  • COVID como outlier extremo: Exclusión total de 2020-2021 reduce datos disponibles (de 20 años a 18 años efectivos). Trade-off necesario para evitar distorsión.

Referencias

Elbers, C., Lanjouw, J. O., & Lanjouw, P. (2003). "Micro-level estimation of poverty and inequality." Econometrica, 71(1), 355-364.

Zhao, X., Yu, B., Liu, Y., Chen, Z., Li, Q., Wang, C., & Wu, J. (2019). "Estimation of poverty using random forest regression with multi-source data: A case study in Bangladesh." Remote Sensing, 11(4), 375.

Jean, N., Burke, M., Xie, M., Davis, W. M., Lobell, D. B., & Ermon, S. (2016). "Combining satellite imagery and machine learning to predict poverty." Science, 353(6301), 790-794.

Chow, G. C., & Lin, A. L. (1971). "Best linear unbiased interpolation, distribution, and extrapolation of time series by related series." The Review of Economics and Statistics, 53(4), 372-375.

Código fuente disponible en el repositorio NEXUS

Ver: src/models/poverty.py, src/processing/spatial_disagg.py, scripts/run_poverty_backtest.py