출시
Backend.AI의 신규 업데이트를 소개합니다.
래블업, 애플 실리콘 특화 AI 추론 엔진 'mlxcel' 오픈소스 공개
래블업이 애플 실리콘 환경에 최적화한 AI 추론 엔진 mlxcel을 오픈소스로 공개합니다. mlxcel은 래블업이 애플 실리콘 (M1~M5 시리즈) 등 애플 실리콘 환경 및 Linux 기반의 CUDA 환경에서 LLM·VLM(비전-언어 모델) 추론 성능을 극대화하기 위해 2025년부터 자체 개발한 AI 추론 엔진입니다. 애플의 머신러닝 프레임워크 MLX의 C++ 바인딩을 기반으로, 순수 Rust로 구현해 Python 런타임 없이도 동작한다는 점이 가장 큰 특징입니다. 기존 mlx-lm 대비 평균 119%의 디코딩 속도를 달성하며, 비교 가능한 모델의 95%에서 mlx-lm을 능가하는 SoTA 성능을 자랑합니다. mlxcel을 통해 맥북·맥 스튜디오에서의 뛰어난 성능을 바탕으로 거대언어모델(LLM)을 개발자 누구나 손쉽게 구동해보세요.
핵심 기술 요약
- 80개 이상의 모델 아키텍처 지원: Llama, Qwen, Gemma, Phi, Mistral/Mixtral, DeepSeek, Mamba 등 트랜스포머, MoE, SSM/RNN, 하이브리드 모델 망라
- 멀티모달 지원: Gemma 4, Llama 4, Qwen3-VL 등 20개 이상 VLM 지원, 오디오·영상 입력 처리
- TurboQuant KV 캐시 압축: KV 캐시를 3~4.25 bit/value 수준으로 압축, 메모리 사용량 약 74%로 감소
- 분산 추론: 인프로세스 텐서 병렬과 mDNS 자동 발견 기반 멀티 머신 파이프라인 병렬 지원
- Speculative Decoding: MTP·DFlash 드래프터 모델을 활용한 추론 가속 지원
- OpenAI 호환 서버: REST API와 SSE 스트리밍 제공, llama-server의 드롭인 대체재로 활용
성능 벤치마크
mlxcel은 동일한 MLX 백엔드를 기반으로 하면서도 기존 mlx-lm 대비 전반적으로 높은 추론 처리량을 기록했습니다. SmolLM-135M-4bit 모델에서는 918.55 tok/s로 mlx-lm(711.54 tok/s) 대비 129% 수준의 성능을 달성했으며, Qwen2.5-0.5B와 Phi-3.5-MoE 등 다양한 아키텍처에서도 일관되게 104~107%의 성능 향상을 보였습니다. 특히 MoE(Mixture of Experts) 계열 모델인 Phi-3.5-MoE-4bit와 MiniMax-M2-3bit에서도 유의미한 속도 개선을 보여줍니다. 아래 표를 통해 대표 모델의 성능을 확인해보세요.
또한, 대표적 모델에서의 VLM Decode에서도 mlx-lm 대비 소폭 향상된 성능을 보여주고 있습니다.
호환성 측면에서도 mlxcel은 기존 mlx-lm이 지원하지 못하는 모델들을 정상적으로 구동할 수 있습니다. 예를 들면 ERNIE-4.5-0.3B, ExaOne4-1.2B, LLaVA-Interleave, OLMo, Gemma-4, Mamba2, Phi-3.5-Vision과 같은 멀티모달·비전·SSM 계열 모델들이고, 벤치마크로 측정한 tok/s 값은 아래와 같습니다.
래블업이 mlxcel을 오픈소스로 공개한 이유
그동안 고성능 AI 추론 인프라는 엔비디아 GPU 서버와 대규모 클라우드를 확보할 수 있는 빅테크 중심으로 구성되어 왔습니다. 2026년 현재 H100 GPU는 주문 후 4~6개월, Blackwell(B200)은 12개월 이상을 기다려야 할 정도로 수급 불균형이 심각한 상황입니다. 이런 상황에서 개인과 소규모 기업 수준을 위한 추론 소프트웨어 생태계는 제한적인 수준으로 머무르고 있었습니다. 맥북, 맥 스튜디오 등 이미 많은 개발자와 연구자가 손에 쥐고 있는 애플 디바이스를 고성능 AI 추론 인프라로 전환할 수 있다면, GPU 수급이라는 높은 장벽 없이도 실질적인 AI 연구와 개발이 가능해집니다.
래블업은 mlxcel의 오픈소스 공개를 통해 AI 연구 역량의 분산이라는 더 큰 목표를 위해 나아가고자 합니다. 스타트업·학생·개발자 등 다양한 주체가 애플 생태계에서 AI 개발·학습·배포를 자유롭게 진행할 수 있도록 mlxcel을 지속적으로 발전시켜 나갈 계획입니다.
지원 범위 및 환경
mlxcel은 2026년 5월 기준 89개 이상의 모델 아키텍처를 지원하고 있습니다.
텍스트 패밀리: Llama, Qwen, Gemma, Phi, Mistral/Mixtral, DeepSeek, Cohere, InternLM, GLM, ExaOne, OLMo, ERNIE, Hunyuan, Mamba, RWKV, Jamba, Nemotron-H, MiniMax, Step, Kimi 등
VLM: Gemma 3/4 VLM, LLaVA, Llama 4, MiniCPM-O, Molmo, Moondream, Phi3-Vision, Phi4MM, Pixtral, Qwen2-VL, Qwen2.5-VL, Qwen3-VL, Qwen3.5-VL 등
운영체제/하드웨어 요구사항
- macOS가 설치된 Apple Silicon 프로세서 기반의 애플 디바이스 (M1/M2/M3/M4/M5 시리즈)
- Linux가 설치되고, NVIDIA CUDA를 지원하는 디바이스 (NVIDIA DGX Spark 등) 자세한 설치 요구사항은 다음 링크를 참조하세요.
빠르게 시작하기
macOS 환경이라면 다음 명령어로 바로 사용해볼 수 있습니다.
소스 빌드 (macOS Apple Silicon)
git clone https://github.com/lablup/mlxcel.git
cd mlxcel
cargo build --release --features metal,accelerate
모델 다운로드
mlxcel download mlx-community/Meta-Llama-3.1-8B-Instruct-4bit
텍스트 생성
mlxcel generate -m ./models/Meta-Llama-3.1-8B-Instruct-4bit -p "Hello, world!" -n 100
OpenAI 호환 서버 실행
mlxcel serve -m ./models/Meta-Llama-3.1-8B-Instruct-4bit --port 8080사전 빌드 바이너리는 리눅스 CUDA 환경에도 제공됩니다. 빌드 요구사항은 macOS의 경우 Rust 1.85+, Xcode Command Line Tools, Metal 툴체인이며, 리눅스 CUDA 환경은 CUDA Toolkit 13.0+, cuDNN 9+가 필요합니다. GUI 환경을 선호한다면 AI:GO를 다운로드해 mlxcel과 연동하는 방법도 있습니다.
AI:GO와 함께 사용하기
mlxcel은 래블업의 로컬 AI 플랫폼 AI:GO(에이아이:고) 의 백엔드 추론 서버로도 바로 활용할 수 있습니다. AI:GO는 macOS, Windows 및 Linux에서 동작하는 데스크톱 기반 AI 모델 운용 플랫폼으로, MLXcel을 백엔드 서버로 연결하면 GUI 환경에서 모델 관리·채팅·API 서빙을 한 번에 처리할 수 있습니다. 직접 CLI를 다루기 어려운 사용자도 AI:GO를 통해 mlxcel의 고성능 추론 기능을 손쉽게 활용할 수 있으며, 맥북·맥 스튜디오에서 온프레미스 AI 환경을 빠르게 구성할 수 있습니다. AI:GO는 공식 매뉴얼 페이지에서 다운로드 및 설치 방법을 확인할 수 있습니다.
상세 벤치마크 결과 바로가기
mlxcel 깃허브: github.com/lablup/mlxcel | 라이선스: Apache License 2.0
AI:GO 매뉴얼: go.backend.ai/ko/manual