Amazon Web Services 28 de febrero de 2017

AWS S3 — Caída de us-east-1 por Error Tipográfico en Comando de Mantenimiento

human-error

causa raíz

Timeline del incidente

T+0 · Operador de AWS

Inicio de la ventana de mantenimiento programada para el subsistema de indexación de S3 en us-east-1.

T+0 · Operador de AWS

Ejecución de un comando de mantenimiento con un error tipográfico para remover servidores del subsistema de indexación de S3.

T+1min · Sistema S3

Remoción de un número significativamente mayor de servidores del subsistema de indexación de S3 de lo previsto.

T+5min · Sistema S3

Degradación crítica del subsistema de indexación de S3, afectando la disponibilidad de operaciones GET, LIST, y PUT.

T+10min · Servicios de AWS

Inicio de la cascada de fallos: múltiples servicios de AWS (EC2, EBS, Lambda, etc.) que dependen de S3 comienzan a experimentar interrupciones.

T+30min · Equipo de Ingeniería de AWS

Identificación de la causa raíz: error tipográfico en el comando de mantenimiento y remoción excesiva de servidores.

T+1h · Equipo de Ingeniería de AWS

Inicio de la reconstrucción del índice de S3, un proceso que toma varias horas debido a la escala del subsistema.

T+4h · Equipo de Ingeniería de AWS

Restauración gradual de la funcionalidad de S3 y de los servicios dependientes.

Análisis técnico

El incidente del 28 de febrero de 2017 en AWS S3 us-east-1 fue provocado por un error humano durante una operación de mantenimiento rutinaria. Un operador ejecutó un comando con un error tipográfico, lo que resultó en la remoción de un número mucho mayor de servidores del subsistema de indexación de S3 de lo previsto. Este subsistema es crítico para la funcionalidad de S3, ya que gestiona los metadatos y la ubicación de los objetos, lo que significa que su degradación impactó directamente en la capacidad de realizar operaciones fundamentales como GET, LIST y PUT.

La propagación del fallo fue masiva debido a la posición de S3 como una dependencia fundamental para cientos de otros servicios de AWS. Servicios como EC2, EBS, Lambda, y muchos otros, utilizan S3 para almacenar logs, configuraciones, imágenes de disco, y datos de usuario. Cuando S3 se degradó, estos servicios no pudieron acceder a sus recursos críticos, lo que llevó a una cascada de fallos en toda la región us-east-1. La reconstrucción del índice de S3 es una operación inherentemente lenta debido a la vastedad de datos que maneja, lo que prolongó la duración del incidente.

Varias salvaguardas fallaron o fueron insuficientes. Primero, la validación del comando de mantenimiento no fue lo suficientemente robusta como para detectar el error tipográfico o para alertar sobre la magnitud del impacto potencial de la operación. Segundo, la arquitectura del subsistema de indexación, aunque distribuida, no pudo absorber la pérdida repentina de tantos nodos sin una degradación crítica. Finalmente, la interdependencia implícita de tantos servicios en S3, especialmente en la región más grande y popular de AWS, reveló una falta de aislamiento o mecanismos de "fail-fast" que pudieran haber contenido el impacto a un subconjunto de servicios o haber permitido una degradación más elegante en lugar de un fallo total para muchos.

Este incidente subrayó la importancia de la resiliencia en las dependencias críticas y la necesidad de una validación rigurosa de los cambios operativos, incluso los que parecen menores. También destacó la fragilidad que puede surgir de la centralización de servicios fundamentales, incluso en arquitecturas distribuidas a gran escala.

Remediaciones y action items

✓ Mejora de las herramientas de mantenimiento para incluir validación más estricta de los comandos y límites de seguridad para prevenir la remoción excesiva de recursos.
✓ Implementación de mecanismos de aislamiento y particionamiento más granulares dentro de S3 para reducir el radio de explosión de fallos en subsistemas críticos.
✓ Fortalecimiento de los procesos de revisión de cambios y la automatización para reducir la probabilidad de errores humanos en operaciones críticas.
✓ Desarrollo de estrategias para una recuperación más rápida del subsistema de indexación de S3, incluyendo la optimización de los tiempos de reconstrucción.
✓ Comunicación mejorada sobre las dependencias de los servicios para que los clientes puedan diseñar arquitecturas más resilientes.

Lecciones para arquitectos

→ Validación rigurosa de comandos operativos: Implementar "guardrails" y validaciones automáticas para prevenir errores humanos en operaciones críticas.
→ Aislamiento de fallos ("Blast Radius"): Diseñar sistemas para que el fallo de un componente no cause una cascada de fallos en todo el sistema o región.
→ Resiliencia de dependencias críticas: Identificar y proteger las dependencias fundamentales, asegurando que su fallo no paralice servicios upstream.
→ Degradación elegante: Implementar modos de operación degradados que permitan a los servicios continuar funcionando, aunque con funcionalidad reducida, durante un incidente.
→ Automatización y revisión de cambios: Reducir la intervención manual en operaciones críticas y establecer procesos de revisión exhaustivos para todos los cambios.

compartir: X / Twitter LinkedIn WhatsApp