Facebook (Meta) 4 de octubre de 2021

Facebook — Apagón Global por Retirada de Rutas BGP

360

minutos

3500.0M

usuarios afectados

configuration-drift

causa raíz

Timeline del incidente

T+0 · Ingeniero de Facebook

Un ingeniero ejecuta un comando de mantenimiento para evaluar la disponibilidad de la capacidad de la red troncal global de Facebook.

T+0 · Sistema de red de Facebook

El comando de mantenimiento, diseñado para deshabilitar enlaces de red para pruebas, retira accidentalmente todas las rutas BGP que anuncian los prefijos IP de Facebook desde la red troncal.

T+1min · Internet

Los prefijos IP de Facebook, Instagram, WhatsApp y Oculus desaparecen de la tabla de rutas global de Internet.

T+5min · Usuarios de Internet

Los servidores DNS autoritativos de Facebook, que residen dentro de la red de Facebook, se vuelven inalcanzables desde Internet.

T+10min · Sistemas internos de Facebook

Los servicios internos de Facebook, que dependen de DNS para la resolución de nombres, comienzan a fallar, incluyendo herramientas de monitoreo y sistemas de acceso remoto.

T+30min · Ingenieros de Facebook

Los ingenieros de Facebook tienen dificultades para acceder a las herramientas y sistemas internos para diagnosticar y remediar el problema debido a la inaccesibilidad de DNS y la falta de conectividad de red.

T+6h · Ingenieros de Facebook

Después de un esfuerzo manual significativo, los ingenieros logran restablecer las rutas BGP y la conectividad de red, restaurando los servicios.

Análisis técnico

El incidente del 4 de octubre de 2021 en Facebook fue provocado por un 'configuration-drift' resultante de un comando de mantenimiento ejecutado en la infraestructura backbone. Este comando, destinado a evaluar la capacidad de la red, accidentalmente retiró todas las rutas BGP (Border Gateway Protocol) que anunciaban los prefijos IP de Facebook al resto de Internet. Al desaparecer estas rutas, los sistemas de enrutamiento globales dejaron de saber cómo llegar a los servidores de Facebook, incluyendo sus servidores DNS autoritativos. Esto es crítico porque sin DNS, los clientes no pueden resolver los nombres de dominio (facebook.com, instagram.com, etc.) a direcciones IP, haciendo que los servicios sean inalcanzables.

La propagación del fallo fue rápida y devastadora. Una vez que las rutas BGP fueron retiradas, los servidores DNS de Facebook se volvieron inalcanzables. Esto no solo afectó a los usuarios externos, sino que también paralizó los sistemas internos de Facebook. Muchas herramientas de monitoreo, sistemas de auditoría, y mecanismos de acceso remoto (como SSH o VPN) dependen de la resolución DNS y de la conectividad de red interna. Al caer el DNS, los ingenieros no pudieron acceder a las herramientas necesarias para diagnosticar y remediar el problema de manera eficiente, creando un 'feedback loop' negativo que prolongó el tiempo de recuperación.

Varias salvaguardas fallaron. Primero, el sistema de auditoría que debía prevenir comandos con consecuencias catastróficas tenía un bug que no detectó la magnitud del impacto de la retirada de rutas BGP. Esto permitió que un comando de mantenimiento rutinario tuviera un efecto global. Segundo, la dependencia excesiva de la propia infraestructura de red de Facebook para herramientas críticas de recuperación (como DNS y acceso remoto) demostró ser un punto único de fallo. No existían mecanismos de 'out-of-band' suficientemente robustos o rutas alternativas para que los ingenieros pudieran acceder a los sistemas y restaurar la conectividad cuando la red principal estaba completamente caída. Este incidente subraya la importancia de la resiliencia en la gestión de la red y la necesidad de sistemas de control y monitoreo que operen independientemente de la infraestructura principal que gestionan.

Remediaciones y action items

✓ Mejora de los sistemas de auditoría y validación de comandos de red para detectar y prevenir cambios que puedan tener un impacto global.
✓ Implementación de mecanismos de 'out-of-band' para el acceso y control de la infraestructura de red, independientes de la red de producción principal.
✓ Revisión y fortalecimiento de la arquitectura DNS para asegurar mayor resiliencia y disponibilidad, incluso en escenarios de pérdida de conectividad BGP.
✓ Desarrollo de planes de contingencia y 'playbooks' para la recuperación de incidentes de red a gran escala, incluyendo la simulación de escenarios de pérdida total de conectividad.

Lecciones para arquitectos

→ Evitar puntos únicos de fallo: Las herramientas de monitoreo y recuperación no deben depender de la misma infraestructura que están diseñadas para gestionar.
→ Validación exhaustiva de cambios: Implementar sistemas robustos de auditoría y validación previa para cualquier cambio de configuración crítico, especialmente en la capa de red.
→ Diseño para la inaccesibilidad: Asegurar que los sistemas críticos de acceso y control puedan operar incluso cuando la red principal está comprometida (ej. 'out-of-band management').
→ Resiliencia de DNS: El sistema DNS debe ser extremadamente robusto y distribuido, con redundancia geográfica y mecanismos de 'failover' que no dependan de la conectividad de la red principal.
→ Pruebas de desastre: Realizar simulacros regulares de escenarios de fallo catastrófico para validar planes de recuperación y la efectividad de las salvaguardas.

compartir: X / Twitter LinkedIn WhatsApp