El incidente del 4 de octubre de 2021 en Facebook fue provocado por un 'configuration-drift' resultante de un comando de mantenimiento ejecutado en la infraestructura backbone. Este comando, destinado a evaluar la capacidad de la red, accidentalmente retiró todas las rutas BGP (Border Gateway Protocol) que anunciaban los prefijos IP de Facebook al resto de Internet. Al desaparecer estas rutas, los sistemas de enrutamiento globales dejaron de saber cómo llegar a los servidores de Facebook, incluyendo sus servidores DNS autoritativos. Esto es crítico porque sin DNS, los clientes no pueden resolver los nombres de dominio (facebook.com, instagram.com, etc.) a direcciones IP, haciendo que los servicios sean inalcanzables.
La propagación del fallo fue rápida y devastadora. Una vez que las rutas BGP fueron retiradas, los servidores DNS de Facebook se volvieron inalcanzables. Esto no solo afectó a los usuarios externos, sino que también paralizó los sistemas internos de Facebook. Muchas herramientas de monitoreo, sistemas de auditoría, y mecanismos de acceso remoto (como SSH o VPN) dependen de la resolución DNS y de la conectividad de red interna. Al caer el DNS, los ingenieros no pudieron acceder a las herramientas necesarias para diagnosticar y remediar el problema de manera eficiente, creando un 'feedback loop' negativo que prolongó el tiempo de recuperación.
Varias salvaguardas fallaron. Primero, el sistema de auditoría que debía prevenir comandos con consecuencias catastróficas tenía un bug que no detectó la magnitud del impacto de la retirada de rutas BGP. Esto permitió que un comando de mantenimiento rutinario tuviera un efecto global. Segundo, la dependencia excesiva de la propia infraestructura de red de Facebook para herramientas críticas de recuperación (como DNS y acceso remoto) demostró ser un punto único de fallo. No existían mecanismos de 'out-of-band' suficientemente robustos o rutas alternativas para que los ingenieros pudieran acceder a los sistemas y restaurar la conectividad cuando la red principal estaba completamente caída. Este incidente subraya la importancia de la resiliencia en la gestión de la red y la necesidad de sistemas de control y monitoreo que operen independientemente de la infraestructura principal que gestionan.