태그 : KV 캐시
'KV 캐시' 태그가 포함된 게시물

LLM 서빙에서 GPU 메모리를 아끼는 방법: KV 캐시 오프로딩 (KV cache offloading)의 원리와 작동 조건
By 조규진, 허진호Agentic AI 워크로드에서 GPU 메모리를 빠르게 잠식하는 KV 캐시(KV cache), 외부 저장소로 오프로딩하면 성능이 어떻게 달라질까요? KV cache offloading의 구조와 동작 원리, 효과적인 조건을 살펴봅니다.27 April 2026