태그 : 인퍼런스
'인퍼런스' 태그가 포함된 게시물

래블업, 애플 실리콘 특화 AI 추론 엔진 'mlxcel' 오픈소스 공개
By 래블업 주식회사래블업이 애플 실리콘(M1~M5)과 NVIDIA CUDA에 최적화한 AI 추론 엔진 mlxcel을 오픈소스로 공개합니다. 순수 Rust로 Python 런타임 없이 동작하며, mlx-lm 대비 평균 119% 디코딩 속도와 80개 이상 모델 아키텍처를 지원합니다.18 May 2026

LLM 서빙에서 GPU 메모리를 아끼는 방법: KV 캐시 오프로딩 (KV cache offloading)의 원리와 작동 조건
By 조규진, 허진호Agentic AI 워크로드에서 GPU 메모리를 빠르게 잠식하는 KV 캐시(KV cache), 외부 저장소로 오프로딩하면 성능이 어떻게 달라질까요? KV cache offloading의 구조와 동작 원리, 효과적인 조건을 살펴봅니다.27 April 2026

AAA: Agentic, Autonomous, Adaptive Intelligence - lab | up >/ conf/5 키노트
By 신정규창립 10주년 컨퍼런스 lab | up > /conf/5 키노트를 정리했습니다. 'Make AI Accessible'과 'Make AI Scalable'을 넘어, 지능을 정량 측정하고 낮은 가격에 공급하는 '지능 공급 기업'으로의 비전을 담았습니다.2 December 2025

Airflow 경험자를 위한 Backend.AI FastTrack 2: 학습부터 서빙까지
By 강정석Airflow로 만든 MLOps 파이프라인을 Backend.AI FastTrack 2에서 더 효과적으로 구성하는 방법을 익힙니다.29 June 2025