El incidente principal no es un fallo único, sino una acumulación de complejidad y fragilidad en el sistema de despliegue continuo Spinnaker de Netflix, específicamente en la interacción entre Orca (motor de orquestación) y Clouddriver (interfaz con la infraestructura cloud). La causa raíz se atribuye a la "configuration drift" y la complejidad incidental introducida en Clouddriver para manejar la fiabilidad de las Cloud Operations. Clouddriver había evolucionado con su propio sistema de orquestación, lógica de reintentos compleja, un framework Saga para rollbacks y un estado de tarea local a la instancia, lo que lo hacía propenso a fallos transitorios y pérdida de estado ante caídas de instancias.

Las salvaguardas existentes (lógica de reintentos, Saga) fallaron porque eran soluciones ad-hoc, implementadas de forma inconsistente y que aumentaban la complejidad cognitiva y la superficie de bugs. La pérdida de estado de las tareas cuando una instancia de Clouddriver fallaba era un problema crítico, ya que Orca perdía la visibilidad del progreso de la operación, llevando a timeouts y fallos de despliegue. Esto resultaba en un 4% de fallos transitorios en los despliegues, impactando significativamente la productividad de los ingenieros, ya que las pipelines podían durar días.

La introducción de Temporal como plataforma de ejecución duradera resolvió estos problemas al externalizar la orquestación, la gestión de estado y la lógica de reintentos. Temporal garantiza que los Workflows (Cloud Operations) se completen a pesar de fallos, reintentando automáticamente las Activities y persistiendo el estado de ejecución de forma duradera. Esto permitió a Clouddriver volverse stateless, eliminando su complejidad interna y haciendo que las operaciones fueran resilientes a fallos de instancia. La migración también forzó la idempotencia de las operaciones, corrigiendo problemas preexistentes.