래블업, 애플 실리콘 특화 AI 추론 엔진 'mlxcel' 오픈소스 공개

출시

Backend.AI의 신규 업데이트를 소개합니다.

May 18, 2026

출시

래블업, 애플 실리콘 특화 AI 추론 엔진 'mlxcel' 오픈소스 공개

래블업 주식회사
래블업 주식회사

May 18, 2026

출시

래블업, 애플 실리콘 특화 AI 추론 엔진 'mlxcel' 오픈소스 공개

래블업 주식회사
래블업 주식회사

래블업, 애플 실리콘 특화 AI 추론 엔진 'mlxcel' 오픈소스 공개

래블업이 애플 실리콘 환경에 최적화된 AI 추론 엔진 mlxcel을 오픈소스로 공개합니다. mlxcel은 래블업이 애플 실리콘 (M1~M5 시리즈) 등 애플 실리콘 환경 및 Linux 기반의 CUDA 환경에서 LLM·VLM(비전-언어 모델) 추론 성능을 극대화하기 위해 2025년부터 자체 개발한 AI 추론 엔진입니다. 애플의 머신러닝 프레임워크 MLX의 C++ 바인딩을 기반으로, 순수 Rust로 구현해 Python 런타임 없이도 동작한다는 점이 가장 큰 특징입니다. 기존 mlx-lm 대비 평균 119%의 디코딩 속도를 달성하며, 비교 가능한 모델의 95%에서 mlx-lm을 능가하는 SoTA 성능을 자랑합니다. mlxcel을 통해 맥북·맥 스튜디오에서의 뛰어난 성능을 바탕으로 거대언어모델(LLM)을 개발자 누구나 손쉽게 구동해보세요.

핵심 기술 요약

80개 이상의 모델 아키텍처 지원: Llama, Qwen, Gemma, Phi, Mistral/Mixtral, DeepSeek, Mamba 등 트랜스포머, MoE, SSM/RNN, 하이브리드 모델 망라
멀티모달 지원: Gemma 4, Llama 4, Qwen3-VL 등 20개 이상 VLM 지원, 오디오·영상 입력 처리
TurboQuant KV 캐시 압축: KV 캐시를 3~4.25 bit/value 수준으로 압축, 메모리 사용량 약 74%로 감소
분산 추론: 인프로세스 텐서 병렬과 mDNS 자동 발견 기반 멀티 머신 파이프라인 병렬 지원
Speculative Decoding: MTP·DFlash 드래프터 모델을 활용한 추론 가속 지원
OpenAI 호환 서버: REST API와 SSE 스트리밍 제공, llama-server의 드롭인 대체재로 활용

성능 벤치마크

2026년 5월 19일 기준으로 MacBook Pro M5 Max와 Mac Studio M1 Ultra(각 128GB 통합 메모리)에서 mlxcel의 실제 추론 성능을 측정하였습니다. 텍스트 모델은 mlx-lm, 비전-언어 모델(VLM)은 mlx-vlm을 Python 기준 스택으로 삼아 동일한 호스트 위에서 직접 비교했습니다.

호스트	모드	기준 스택	비교 쌍 수	프리필 중앙값	디코드 중앙값	디코드 동등성 달성
M5 Max	텍스트	mlx-lm	66	2.70x	99%	66개 중 62개 (≥90% 기준)
M1 Ultra	텍스트	mlx-lm	74	1.76x	99%	74개 중 64개 (≥90% 기준)
M5 Max	VLM	mlx-vlm	22	0.94x	101%	22개 중 18개 (≥90% 기준)
M1 Ultra	VLM	mlx-vlm	18	1.33x	98%	18개 중 12개 (≥90% 기준)

대표 텍스트 모델 성능

mlxcel은 동일한 MLX 백엔드를 기반으로 하면서도 기존 mlx-lm 대비 전반적으로 높은 추론 처리량을 기록했습니다. SmolLM-135M-4bit 모델에서는 905 tok/s로 mlx-lm(712 tok/s) 대비 127% 수준의 성능을 달성했으며, Qwen2.5-0.5B등 다양한 아키텍처에서도 일관되게 성능 향상을 보였습니다. 아래 표를 통해 대표 모델의 성능을 확인해보세요.

호스트	모델	분류	mlxcel 프리필	mlxcel 디코드	mlx-lm 디코드	vs mlx-lm
M5 Max	smollm-135m-4bit	Small dense	6,058.41	905.24	711.54	127%
M5 Max	qwen2.5-7b-4bit	Dense 7B	917.38	126.36	123.59	102%
M5 Max	gpt-oss-120b-4bit	Large MoE	334.68	114.03	110.35	103%
M5 Max	solar-open-100b-4bit	Large MoE	210.91	65.36	66.30	99%
M5 Max	qwen3.5-35b-a3b-4bit	Hybrid MoE	480.89	151.63	152.96	99%
M5 Max	nemotron-h-30b-4bit	Hybrid SSM/MoE	414.31	177.18	178.80	99%
M1 Ultra	phi-3.5-moe-4bit	MoE	112.10	77.71	69.28	112%
M1 Ultra	minicpm3-4b-4bit	MLA	241.44	80.78	73.26	110%
M1 Ultra	qwen2.5-0.5b-4bit	Small dense	1,243.98	349.52	315.48	111%
M1 Ultra	gpt-oss-120b-4bit	Large MoE	114.12	61.19	57.58	106%
M1 Ultra	command-r7b-4bit	Dense 7B	81.17	114.34	107.75	106%
M1 Ultra	solar-open-100b-4bit	Large MoE	75.37	36.26	35.69	102%

또한, 대표적 모델에서의 VLM Decode에서도 mlx-lm 대비 향상된 성능을 보여주고 있습니다.

Host	Model	Class	mlxcel prefill	mlxcel decode	mlx-vlm decode	vs mlx-vlm
M5 Max	qwen3.5-0.8b-4bit	Hybrid GatedDeltaNet VLM	1,294.94	505.94	410.96	123%
M5 Max	qwen3.5-35b-a3b-4bit	Hybrid MoE VLM	355.32	151.34	128.80	117%
M5 Max	gemma-4-e2b-it-4bit	Gemma 4 VLM	2,787.47	217.32	201.70	108%
M5 Max	gemma3n-e2b-4bit	Gemma 3n VLM	2,893.48	151.36	124.63	121%
M5 Max	molmo2-4b	Molmo2 vision encoder	2,512.31	64.01	66.80	96%
M1 Ultra	llava-interleave-qwen-0.5b-bf16	SigLIP + Qwen2	3,961.62	265.57	225.15	118%
M1 Ultra	aya-vision-8b	SigLIP + Cohere2	444.01	113.59	103.74	110%
M1 Ultra	molmo2-4b	Molmo2 vision encoder	727.26	60.31	60.87	99%
M1 Ultra	phi-3.5-vision-4bit	CLIP + HD tiling	991.67	122.63	92.53	133%
M1 Ultra	pixtral-12b-4bit	Pixtral ViT + Mistral	447.97	60.25	—	—

래블업이 mlxcel을 오픈소스로 공개한 이유

그동안 고성능 AI 추론 인프라는 엔비디아 GPU 서버와 대규모 클라우드를 확보할 수 있는 빅테크 중심으로 구성되어 왔습니다. 2026년 현재 H100 GPU는 주문 후 4~6개월, Blackwell(B200)은 12개월 이상을 기다려야 할 정도로 수급 불균형이 심각한 상황입니다. 이런 상황에서 개인과 소규모 기업 수준을 위한 추론 소프트웨어 생태계는 제한적인 수준으로 머무르고 있었습니다. 맥북, 맥 스튜디오 등 이미 많은 개발자와 연구자가 손에 쥐고 있는 애플 디바이스를 고성능 AI 추론 인프라로 전환할 수 있다면, GPU 수급이라는 높은 장벽 없이도 실질적인 AI 연구와 개발이 가능해집니다.

래블업은 mlxcel의 오픈소스 공개를 통해 AI 연구 역량의 분산이라는 더 큰 목표를 위해 나아가고자 합니다. 스타트업·학생·개발자 등 다양한 주체가 애플 생태계에서 AI 개발·학습·배포를 자유롭게 진행할 수 있도록 mlxcel을 지속적으로 발전시켜 나갈 계획입니다.

지원 범위 및 환경

mlxcel은 2026년 5월 기준 89개 이상의 모델 아키텍처를 지원하고 있습니다.

텍스트 패밀리: Llama, Qwen, Gemma, Phi, Mistral/Mixtral, DeepSeek, Cohere, InternLM, GLM, ExaOne, OLMo, ERNIE, Hunyuan, Mamba, RWKV, Jamba, Nemotron-H, MiniMax, Step, Kimi 등

VLM: Gemma 3/4 VLM, LLaVA, Llama 4, MiniCPM-O, Molmo, Moondream, Phi3-Vision, Phi4MM, Pixtral, Qwen2-VL, Qwen2.5-VL, Qwen3-VL, Qwen3.5-VL 등

운영체제/하드웨어 요구사항

macOS가 설치된 Apple Silicon 프로세서 기반의 애플 디바이스 (M1/M2/M3/M4/M5 시리즈)
Linux가 설치되고, NVIDIA CUDA를 지원하는 디바이스 (NVIDIA DGX Spark 등) 자세한 설치 요구사항은 다음 링크를 참조하세요.

빠르게 시작하기

macOS 환경이라면 다음 명령어로 바로 사용해볼 수 있습니다.

소스 빌드 (macOS Apple Silicon)
git clone https://github.com/lablup/mlxcel.git
cd mlxcel
cargo build --release --features metal,accelerate

모델 다운로드
mlxcel download mlx-community/Meta-Llama-3.1-8B-Instruct-4bit

텍스트 생성
mlxcel generate -m ./models/Meta-Llama-3.1-8B-Instruct-4bit -p "Hello, world!" -n 100

OpenAI 호환 서버 실행
mlxcel serve -m ./models/Meta-Llama-3.1-8B-Instruct-4bit --port 8080

사전 빌드 바이너리는 리눅스 CUDA 환경에도 제공됩니다. 빌드 요구사항은 macOS의 경우 Rust 1.85+, Xcode Command Line Tools, Metal 툴체인이며, 리눅스 CUDA 환경은 CUDA Toolkit 13.0+, cuDNN 9+가 필요합니다. GUI 환경을 선호한다면 AI:GO를 다운로드해 mlxcel과 연동하는 방법도 있습니다.

AI:GO와 함께 사용하기

mlxcel은 래블업의 로컬 AI 플랫폼 AI:GO(에이아이:고) 의 백엔드 추론 서버로도 바로 활용할 수 있습니다. AI:GO는 macOS, Windows 및 Linux에서 동작하는 데스크톱 기반 AI 모델 운용 플랫폼으로, MLXcel을 백엔드 서버로 연결하면 GUI 환경에서 모델 관리·채팅·API 서빙을 한 번에 처리할 수 있습니다. 직접 CLI를 다루기 어려운 사용자도 AI:GO를 통해 mlxcel의 고성능 추론 기능을 손쉽게 활용할 수 있으며, 맥북·맥 스튜디오에서 온프레미스 AI 환경을 빠르게 구성할 수 있습니다. AI:GO는 공식 매뉴얼 페이지에서 다운로드 및 설치 방법을 확인할 수 있습니다.

상세 벤치마크 결과 바로가기

mlxcel 깃허브: github.com/lablup/mlxcel | 라이선스: Apache License 2.0

AI:GO 매뉴얼: go.backend.ai/ko/manual

블로그

출시

래블업, 애플 실리콘 특화 AI 추론 엔진 'mlxcel' 오픈소스 공개

래블업, 애플 실리콘 특화 AI 추론 엔진 'mlxcel' 오픈소스 공개

래블업, 애플 실리콘 특화 AI 추론 엔진 'mlxcel' 오픈소스 공개

핵심 기술 요약

성능 벤치마크

대표 텍스트 모델 성능

래블업이 mlxcel을 오픈소스로 공개한 이유

지원 범위 및 환경

운영체제/하드웨어 요구사항

빠르게 시작하기

AI:GO와 함께 사용하기

개인정보를 소중히 여깁니다