Metodología - Nowcast de Pobreza

Resumen Ejecutivo

El nowcast de pobreza utiliza un modelo de panel departamental con Gradient Boosting Regressor (GBR) que predice cambios año-a-año en tasas de pobreza para 24 departamentos. El modelo combina indicadores económicos departamentales (crédito, empleo) con datos satelitales de luces nocturnas (NTL) para estimar pobreza monetaria con 6-12 meses de anticipación respecto a la publicación oficial anual de INEI.

RMSE Anual

2.54 pp

excl. COVID

vs AR(1)

-4.2%

Rel.RMSE = 0.953

GBR vs Ridge

-25%

RMSE reduction

1. Arquitectura del Modelo

1.1 Panel PovertyNowcaster con GBR

El modelo opera sobre un panel de 24 departamentos × 20 años (2004-2024). Usa un change-prediction approach: predice el cambio en pobreza, luego lo suma al valor observado en t-1.

Δpobreza_d,t = GBR(X_d,t, pobreza_d,t-1)
pobreza_d,t = pobreza_d,t-1 + Δpobreza_d,t

Donde:

d: Departamento (24 unidades, Callao fusionado con Lima)
X_d,t: Features departamentales agregadas a frecuencia anual
pobreza_d,t-1: Rezago de pobreza (muy predictivo)
GBR: Gradient Boosting Regressor (scikit-learn) con 100 árboles, max_depth=3

1.2 ¿Por qué Change-Prediction?

Intentos anteriores de predecir niveles directos fallaron:

Fixed-effects demeaning: RMSE = 24.5 pp (inestable con N=24, produce predicciones negativas)
Level prediction con Ridge: RMSE = 13.7 pp (pierde info del rezago AR tras estandarización)
Change prediction (actual): RMSE = 2.54 pp ✓ — preserva información del rezago

1.3 Gradient Boosting vs Ridge

GBR superó dramáticamente a Ridge lineal:

Modelo	RMSE (pp)	Casos Extremos
Ridge (α=100)	3.40	Junín: -10pp, Moquegua: -6pp
GBR (100 trees)	2.54	Junín: +4pp, Moquegua: +0.5pp

GBR captura no-linealidades en la relación entre crédito/empleo/NTL y pobreza que Ridge no puede modelar.

1.4 Manejo de COVID-19

Similar a GDP/Inflación, excluimos 2020-2021 de training Y evaluación:

Resultado: RMSE mejora de 4.6 pp (con COVID) a 3.2 pp (sin COVID) — reducción de 30%
"2018 structural break" = 100% COVID: pre-2018 RMSE=1.39pp vs post-2018 excl. COVID RMSE=1.57pp (p=0.79, NO significativo)
El supuesto "quiebre en 2018" desapareció al excluir COVID — era un artefacto del shock 2020

2. Fuentes de Datos

2.1 Features Departamentales

Panel departamental mensual (25 depts × ~260 meses) agregado a frecuencia anual:

Categoría	Series	Fuente
Crédito	Crédito total, consumo, MiPyme (YoY%)	BCRP
Depósitos	Depósitos vista, ahorro, plazo (YoY%)	BCRP
Electricidad	Producción eléctrica departamental (YoY%)	BCRP
Empleo	Afiliados pensiones (ONP/AFP, YoY%)	BCRP
Fiscal	Recaudación tributaria, gasto regional/local (YoY%)	MEF/SUNAT
Satelital	Luces nocturnas (NTL) suma departamental (log)	NOAA-VIIRS

2.2 Luces Nocturnas (NTL) como Proxy

NTL mensual se agrega a anual y se transforma con log(1+x) para estabilizar varianza:

NTL_annual_d,t = log(1 + mean(NTL_monthly_d,t))

Ventajas:

Cobertura universal (25 departamentos sin gaps)
Frecuencia mensual → permite nowcasting intra-año
Correlaciona negativamente con pobreza (más luz = menos pobreza)
Sin rezago de publicación (~15 días desde fin de mes)

2.3 Target: Pobreza Monetaria Departamental (INEI)

Tasa de pobreza monetaria (% población bajo línea de pobreza) por departamento. Publicado anualmente con ~6-7 meses de rezago (ej: datos 2024 publicados en Mayo 2025).

Cobertura: 24 departamentos (Callao fusionado con Lima en datos oficiales), 2004-2024.

3. Desempeño y Validación

3.1 Backtest Anual (2012-2024, excl. COVID)

Modelo	RMSE (pp)	MAE (pp)	Rel.RMSE
Panel GBR (change-pred)	2.54	1.89	0.953
AR(1) Departamental	2.65	1.97	1.000
Random Walk	2.78	2.11	1.049

Primera vez que GBR supera AR(1) en backtests de pobreza (Rel.RMSE = 0.953, -4.7% error). Anteriormente Ridge no lograba vencer benchmarks naive.

3.2 Nowcasting Mensual (2012-2024)

El modelo también produce nowcasts mensuales usando rolling windows de 12 meses sobre el panel:

RMSE mensual: ~4.3-4.5 pp (estable en meses 3, 6, 9, 12)
Within-year noise: 0.5-0.7 pp (bien debajo de 2pp threshold)
Monthly revisions: 0.6-0.7 pp (pequeñas y estables)
Rel.RMSE vs AR1: 0.989 (-1.1% vs AR1) — ligeramente mejor que anual

El ruido intra-año es bajo, por lo que NO se requiere suavizado adicional.

3.3 Nowcast Actual (2024)

Pobreza Nacional 2024: 26.8%

24 departamentos | Panel completo a través de Nov-2024

4. Nowcasting Trimestral

Complemento a nowcasts anuales/mensuales: predicciones trimestrales usando desagregación temporal (Chow-Lin) para interpolar entre años.

4.1 Método Chow-Lin

Desagrega observaciones anuales a frecuencia trimestral usando indicadores de alta frecuencia como related series:

pobreza_quarterly = ChowLin(pobreza_annual, related=[empleo_q, credito_q, ntl_q])

Ventajas:

Preserva totales anuales (suma de 4 trimestres = valor anual)
Captura variación intra-año usando indicadores mensuales agregados a trimestral
Métodos GLS minimizan autocorrelación residual

Ver gráficos trimestrales para series desagregadas.

⚠️ Limitaciones

N pequeño: Solo 24 departamentos → varianza alta en estimaciones departamentales. Nacional es más estable.
Rezago de features: Algunos indicadores departamentales (crédito, empleo) tienen 1-2 meses de publication lag, limitando la anticipación del nowcast.
Heterogeneidad regional: Relaciones crédito-pobreza pueden variar por departamento (ej: Lima vs Amazonas). GBR captura algo de no-linealidad pero no interacciones espaciales complejas.
COVID como outlier extremo: Exclusión total de 2020-2021 reduce datos disponibles (de 20 años a 18 años efectivos). Trade-off necesario para evitar distorsión.

Referencias

Elbers, C., Lanjouw, J. O., & Lanjouw, P. (2003). "Micro-level estimation of poverty and inequality." Econometrica, 71(1), 355-364.

Zhao, X., Yu, B., Liu, Y., Chen, Z., Li, Q., Wang, C., & Wu, J. (2019). "Estimation of poverty using random forest regression with multi-source data: A case study in Bangladesh." Remote Sensing, 11(4), 375.

Jean, N., Burke, M., Xie, M., Davis, W. M., Lobell, D. B., & Ermon, S. (2016). "Combining satellite imagery and machine learning to predict poverty." Science, 353(6301), 790-794.

Chow, G. C., & Lin, A. L. (1971). "Best linear unbiased interpolation, distribution, and extrapolation of time series by related series." The Review of Economics and Statistics, 53(4), 372-375.

Código fuente disponible en el repositorio NEXUS

Ver: src/models/poverty.py, src/processing/spatial_disagg.py, scripts/run_poverty_backtest.py