Saltar al contenido
kerneldigest

LLM Inference

4 artículos

Optimización de inferencia de LLMs: KV cache, cuantización, batching