Netflix

Mount Mayhem at Netflix: Escalado de Contenedores y Contención de Locks del Kernel en CPUs Modernas

resource-exhaustion

causa raíz

Timeline del incidente

· Netflix Engineering

Netflix migra su plataforma de contenedores de un runtime basado en virtual kubelet + Docker a kubelet + containerd.

· Automated monitoring

Se observan nodos (principalmente r5.metal) "stalling" por largos periodos, con health checks que exceden el tiempo de espera (30 segundos).

· on-call SRE

Investigación inicial revela un aumento dramático en la longitud de la tabla de mounts y que la lectura de esta toma más de 30 segundos. systemd y kubelet también muestran timeouts.

· on-call SRE

Se identifica que los mounts están relacionados con la creación de contenedores, especialmente aquellos con muchas capas (50+).

· on-call SRE

Análisis de flamegraph muestra que containerd pasa la mayor parte del tiempo intentando adquirir un lock a nivel de kernel durante las operaciones de mount para el root filesystem del contenedor.

· Netflix Engineering

Se diagnostica que la nueva arquitectura de runtime, que asigna un rango de usuario único a cada contenedor para mejorar la seguridad y usa la función `idmap` del kernel, genera un gran número de operaciones de mount/umount (O(n) por capa).

· Netflix Engineering

Se descubre que la contención del lock global del VFS del kernel (`mount_lock`) es el cuello de botella, exacerbado por la arquitectura de CPU (NUMA, Hyperthreading, arquitecturas de caché centralizadas).

· Netflix Engineering

Se implementa una mitigación inmediata: dirigir las cargas de trabajo a arquitecturas de CPU que escalan mejor bajo estas condiciones (ej. m7a con caché distribuida).

· Netflix Engineering

Se colabora con el upstream de containerd para refactorizar el proceso de mount, reduciendo las operaciones de mount por capa de O(n) a O(1) por contenedor, eliminando la contención del lock global.

Análisis técnico

El incidente en Netflix fue provocado por una contención severa de locks a nivel de kernel, específicamente el mount_lock del VFS de Linux, durante el escalado rápido de contenedores. La causa raíz técnica fue la adopción de un nuevo runtime de contenedores (kubelet + containerd) que, para mejorar la seguridad al asignar rangos de usuario únicos a cada contenedor, utilizaba la función idmap del kernel. Esta función, para cada capa de una imagen de contenedor, requería múltiples syscalls de mount (open_tree, mount_setattr, move_mount), lo que resultaba en un número masivo de operaciones de mount/umount (20200 para 100 contenedores con 50 capas cada uno).

La contención se amplificó significativamente en ciertas arquitecturas de CPU, particularmente las instancias r5.metal de AWS (Intel de 5ª generación, dual-socket, múltiples dominios NUMA). El análisis reveló que los efectos NUMA (mayor latencia para accesos remotos), Hyperthreading (hilos compitiendo por recursos de ejecución compartidos) y las arquitecturas de caché centralizadas (donde las operaciones atómicas para un lock global se canalizan a través de una única cola como el 'Table of Requests' o TOR) exacerbaban la contención del lock. Esto causaba que los CPUs pasaran la mayor parte del tiempo en un spin loop (pause instruction) esperando el lock, resultando en stalls de pipeline y latencias elevadas.

Las salvaguardas existentes, como los health checks, fallaron al detectar la causa raíz de manera proactiva, solo indicando el síntoma de los nodos "stalling". La naturaleza del problema, profundamente arraigada en la interacción entre el software del runtime, el kernel de Linux y la microarquitectura de la CPU, hizo que la detección y el diagnóstico fueran complejos. La migración a un nuevo runtime, aunque beneficiosa para la seguridad, introdujo un patrón de acceso al kernel que no escalaba bien con la arquitectura de hardware predominante para cargas de trabajo de alta densidad de contenedores y muchas capas.

Remediaciones y action items

✓ Refactorización del proceso de creación de rootfs de contenedores en containerd para minimizar las operaciones de mount por capa, pasando de O(n) a O(1) por contenedor, eliminando la contención del lock global.
✓ Direccionamiento de cargas de trabajo intensivas en creación de contenedores a arquitecturas de CPU con mejor escalado bajo contención de locks (ej. CPUs con caché distribuida como AMD EPYC en m7a.24xlarge).
✓ Desarrollo de microbenchmarks personalizados para simular y diagnosticar la contención de locks globales en diferentes arquitecturas de hardware (NUMA, Hyperthreading, caché).
✓ Consideración de APIs de kernel más nuevas (ej. `fsconfig()` con soporte `lowerdir+`) para futuras mejoras, aunque se optó por una solución compatible con kernels existentes.

Lecciones para arquitectos

→ La seguridad mejorada (ej. aislamiento de usuarios por contenedor) puede introducir nuevos cuellos de botella de rendimiento a nivel de kernel/hardware.
→ Las arquitecturas de CPU (NUMA, Hyperthreading, diseño de caché) tienen un impacto crítico en el rendimiento de cargas de trabajo con alta contención de locks globales.
→ El escalado de sistemas distribuidos requiere una comprensión profunda de la interacción entre el software, el kernel y la microarquitectura del hardware subyacente.
→ Las operaciones O(N) en bucles críticos de creación de recursos (ej. mounts por capa) son anti-patrones en sistemas de alta concurrencia y deben ser refactorizadas a O(1) siempre que sea posible.
→ Los microbenchmarks y herramientas de profiling de bajo nivel (perf, TMA) son esenciales para diagnosticar problemas de rendimiento complejos en la interfaz software-hardware.
→ La elección de la instancia de hardware debe considerar las características de la carga de trabajo, no solo el número de cores o la memoria.
→ La colaboración upstream con proyectos de código abierto (ej. containerd) es crucial para resolver problemas fundamentales que afectan a toda la comunidad.

compartir: X / Twitter LinkedIn WhatsApp