Netflix

Reducción de fallos transitorios en despliegues de Spinnaker en Netflix del 4% al 0.0001% con Temporal

configuration-drift

causa raíz

Timeline del incidente

· Spinnaker / Clouddriver

Netflix experimenta una tasa de fallo del 4% en despliegues debido a fallos transitorios en Cloud Operations gestionadas por Clouddriver.

· Equipo de Ingeniería de Netflix

Identificación de la complejidad incidental en Clouddriver (orquestación interna, lógica de reintentos, framework Saga, estado local de tareas) como causa de la baja fiabilidad.

· Equipo de Ingeniería de Netflix

Decisión de migrar la ejecución de Cloud Operations a Temporal para una orquestación duradera.

· Equipo de Ingeniería de Netflix

Implementación de una interfaz `CloudOperationRunner` en Orca y configuración dinámica (Fast Properties) para alternar entre la ruta legacy y Temporal.

· Equipo de Ingeniería de Netflix

Despliegue inicial de los propios servicios de Spinnaker usando Temporal.

· Equipo de Ingeniería de Netflix

Onboarding de todas las aplicaciones de Netflix a la nueva arquitectura basada en Temporal en dos trimestres.

· Temporal

Reducción de la tasa de fallos transitorios en despliegues del 4% al 0.0001%.

Análisis técnico

El incidente principal no es un fallo único, sino una acumulación de complejidad y fragilidad en el sistema de despliegue continuo Spinnaker de Netflix, específicamente en la interacción entre Orca (motor de orquestación) y Clouddriver (interfaz con la infraestructura cloud). La causa raíz se atribuye a la "configuration drift" y la complejidad incidental introducida en Clouddriver para manejar la fiabilidad de las Cloud Operations. Clouddriver había evolucionado con su propio sistema de orquestación, lógica de reintentos compleja, un framework Saga para rollbacks y un estado de tarea local a la instancia, lo que lo hacía propenso a fallos transitorios y pérdida de estado ante caídas de instancias.

Las salvaguardas existentes (lógica de reintentos, Saga) fallaron porque eran soluciones ad-hoc, implementadas de forma inconsistente y que aumentaban la complejidad cognitiva y la superficie de bugs. La pérdida de estado de las tareas cuando una instancia de Clouddriver fallaba era un problema crítico, ya que Orca perdía la visibilidad del progreso de la operación, llevando a timeouts y fallos de despliegue. Esto resultaba en un 4% de fallos transitorios en los despliegues, impactando significativamente la productividad de los ingenieros, ya que las pipelines podían durar días.

La introducción de Temporal como plataforma de ejecución duradera resolvió estos problemas al externalizar la orquestación, la gestión de estado y la lógica de reintentos. Temporal garantiza que los Workflows (Cloud Operations) se completen a pesar de fallos, reintentando automáticamente las Activities y persistiendo el estado de ejecución de forma duradera. Esto permitió a Clouddriver volverse stateless, eliminando su complejidad interna y haciendo que las operaciones fueran resilientes a fallos de instancia. La migración también forzó la idempotencia de las operaciones, corrigiendo problemas preexistentes.

Remediaciones y action items

✓ Migración de la ejecución de Cloud Operations de la lógica interna de Clouddriver a Temporal Workflows.
✓ Eliminación de la lógica de orquestación, reintentos y gestión de estado interna de Clouddriver.
✓ Implementación de una interfaz de abstracción (`CloudOperationRunner`) en Orca para permitir la transición gradual entre la ejecución legacy y Temporal.
✓ Uso de configuración dinámica (Fast Properties) para controlar qué Cloud Operations se ejecutaban vía Temporal, permitiendo una migración granular.
✓ Reescritura de la lógica de Cloud Operations como Temporal Activities, promoviendo la idempotencia por diseño.

Lecciones para arquitectos

→ Externalizar la orquestación y la gestión de estado de procesos de larga duración a plataformas dedicadas para reducir la complejidad incidental.
→ Diseñar sistemas para que sean stateless cuando sea posible, delegando la durabilidad del estado a un componente externo.
→ La idempotencia es fundamental para la resiliencia en sistemas distribuidos, especialmente cuando se implementan reintentos automáticos.
→ Abstraer las dependencias críticas permite migraciones graduales y reduce el riesgo de cambios disruptivos.
→ Evitar la complejidad incidental (undifferentiated heavy lifting) implementando soluciones ad-hoc para problemas ya resueltos por plataformas existentes.
→ Los Child Workflows deben usarse con propósito, no solo para organización de código, para evitar complejidad innecesaria en el troubleshooting.
→ Utilizar objetos de un solo argumento para Workflows y Activities para mantener la compatibilidad hacia atrás y la determinismo.

compartir: X / Twitter LinkedIn WhatsApp