Backend.AI Blog - 인퍼런스

태그 : 인퍼런스

'인퍼런스' 태그가 포함된 게시물

래블업, 애플 실리콘 특화 AI 추론 엔진 'mlxcel' 오픈소스 공개
By 래블업 주식회사
래블업이 애플 실리콘(M1~M5)과 NVIDIA CUDA에 최적화한 AI 추론 엔진 mlxcel을 오픈소스로 공개합니다. 순수 Rust로 Python 런타임 없이 동작하며, mlx-lm 대비 평균 119% 디코딩 속도와 80개 이상 모델 아키텍처를 지원합니다.
18 May 2026
자세히 읽기
LLM 서빙에서 GPU 메모리를 아끼는 방법: KV 캐시 오프로딩 (KV cache offloading)의 원리와 작동 조건
By 조규진, 허진호
Agentic AI 워크로드에서 GPU 메모리를 빠르게 잠식하는 KV 캐시(KV cache), 외부 저장소로 오프로딩하면 성능이 어떻게 달라질까요? KV cache offloading의 구조와 동작 원리, 효과적인 조건을 살펴봅니다.
27 April 2026
- KV 캐시
- 인퍼런스
자세히 읽기
AAA: Agentic, Autonomous, Adaptive Intelligence - lab | up >/ conf/5 키노트
By 신정규
창립 10주년 컨퍼런스 lab | up > /conf/5 키노트를 정리했습니다. 'Make AI Accessible'과 'Make AI Scalable'을 넘어, 지능을 정량 측정하고 낮은 가격에 공급하는 '지능 공급 기업'으로의 비전을 담았습니다.
2 December 2025
자세히 읽기
Airflow 경험자를 위한 Backend.AI FastTrack 2: 학습부터 서빙까지
By 강정석
Airflow로 만든 MLOps 파이프라인을 Backend.AI FastTrack 2에서 더 효과적으로 구성하는 방법을 익힙니다.
29 June 2025
자세히 읽기

backend.ai

블로그

태그 : 인퍼런스

개인정보를 소중히 여깁니다