출시

Backend.AI의 신규 업데이트를 소개합니다.

May 18, 2026

출시

래블업, 애플 실리콘 특화 AI 추론 엔진 'mlxcel' 오픈소스 공개

  • 래블업 주식회사

    래블업 주식회사

    래블업 주식회사

May 18, 2026

출시

래블업, 애플 실리콘 특화 AI 추론 엔진 'mlxcel' 오픈소스 공개

  • 래블업 주식회사

    래블업 주식회사

    래블업 주식회사

래블업, 애플 실리콘 특화 AI 추론 엔진 'mlxcel' 오픈소스 공개

래블업이 애플 실리콘 환경에 최적화한 AI 추론 엔진 mlxcel을 오픈소스로 공개합니다. mlxcel은 래블업이 애플 실리콘 (M1~M5 시리즈) 등 애플 실리콘 환경 및 Linux 기반의 CUDA 환경에서 LLM·VLM(비전-언어 모델) 추론 성능을 극대화하기 위해 2025년부터 자체 개발한 AI 추론 엔진입니다. 애플의 머신러닝 프레임워크 MLX의 C++ 바인딩을 기반으로, 순수 Rust로 구현해 Python 런타임 없이도 동작한다는 점이 가장 큰 특징입니다. 기존 mlx-lm 대비 평균 119%의 디코딩 속도를 달성하며, 비교 가능한 모델의 95%에서 mlx-lm을 능가하는 SoTA 성능을 자랑합니다. mlxcel을 통해 맥북·맥 스튜디오에서의 뛰어난 성능을 바탕으로 거대언어모델(LLM)을 개발자 누구나 손쉽게 구동해보세요.

핵심 기술 요약

  • 80개 이상의 모델 아키텍처 지원: Llama, Qwen, Gemma, Phi, Mistral/Mixtral, DeepSeek, Mamba 등 트랜스포머, MoE, SSM/RNN, 하이브리드 모델 망라
  • 멀티모달 지원: Gemma 4, Llama 4, Qwen3-VL 등 20개 이상 VLM 지원, 오디오·영상 입력 처리
  • TurboQuant KV 캐시 압축: KV 캐시를 3~4.25 bit/value 수준으로 압축, 메모리 사용량 약 74%로 감소
  • 분산 추론: 인프로세스 텐서 병렬과 mDNS 자동 발견 기반 멀티 머신 파이프라인 병렬 지원
  • Speculative Decoding: MTP·DFlash 드래프터 모델을 활용한 추론 가속 지원
  • OpenAI 호환 서버: REST API와 SSE 스트리밍 제공, llama-server의 드롭인 대체재로 활용

성능 벤치마크

mlxcel은 동일한 MLX 백엔드를 기반으로 하면서도 기존 mlx-lm 대비 전반적으로 높은 추론 처리량을 기록했습니다. SmolLM-135M-4bit 모델에서는 918.55 tok/s로 mlx-lm(711.54 tok/s) 대비 129% 수준의 성능을 달성했으며, Qwen2.5-0.5B와 Phi-3.5-MoE 등 다양한 아키텍처에서도 일관되게 104~107%의 성능 향상을 보였습니다. 특히 MoE(Mixture of Experts) 계열 모델인 Phi-3.5-MoE-4bit와 MiniMax-M2-3bit에서도 유의미한 속도 개선을 보여줍니다. 아래 표를 통해 대표 모델의 성능을 확인해보세요.

ModelImprovementmlxcelmlx-lm
1smollm-135m-4bit+29.1%918.55711.54
2qwen2.5-0.5b-4bit+7.4%684.57637.17
3phi-3.5-moe-4bit+6.5%114.60107.56
4minimax-m2-3bit+5.7%72.8768.94
5qwen3-30b-a3b-4bit+3.6%152.54147.22
6qwen3-moe-4bit+3.5%151.66146.51
7command-r7b-4bit+3.5%114.53110.67
8gpt-oss-120b-4bit+2.2%112.83110.35
9qwen2.5-7b-8bit+1.7%68.6267.44
10qwen2.5-7b-4bit+1.6%125.55123.59
11minicpm-2b-4bit+1.3%231.47228.46
12qwen2.5-0.5b-bf16+0.7%405.73402.73
13deepseek-r1-distill-7b-4bit+0.4%126.13125.63

또한, 대표적 모델에서의 VLM Decode에서도 mlx-lm 대비 소폭 향상된 성능을 보여주고 있습니다.

ModelImprovementmlxcelmlx-lm
1gemma-4-e2b-it-4bit+6.9%215.53201.70
2qwen3.6-35b-a3b-4bit+3.1%127.58123.70
3qwen3.5-35b-a3b-4bit+2.1%131.46128.80
4gemma-4-e4b-it-4bit+1.7%133.42131.24

호환성 측면에서도 mlxcel은 기존 mlx-lm이 지원하지 못하는 모델들을 정상적으로 구동할 수 있습니다. 예를 들면 ERNIE-4.5-0.3B, ExaOne4-1.2B, LLaVA-Interleave, OLMo, Gemma-4, Mamba2, Phi-3.5-Vision과 같은 멀티모달·비전·SSM 계열 모델들이고, 벤치마크로 측정한 tok/s 값은 아래와 같습니다.

Modelmlxcel decode
1ERNIE-4.5-0.3B-4bit1056.88
2ExaOne4-1.2B-4bit417.34
3LLaVA-Interleave-0.5B-bf16395.35
4OLMo-1B-4bit237.50
5Gemma-4-E2B-4bit221.62
6DeepSeek-Coder-1.3B-4bit189.58
7Mamba2-1.3B-4bit171.69
8Phi-3.5-Vision-4bit160.68

래블업이 mlxcel을 오픈소스로 공개한 이유

그동안 고성능 AI 추론 인프라는 엔비디아 GPU 서버와 대규모 클라우드를 확보할 수 있는 빅테크 중심으로 구성되어 왔습니다. 2026년 현재 H100 GPU는 주문 후 4~6개월, Blackwell(B200)은 12개월 이상을 기다려야 할 정도로 수급 불균형이 심각한 상황입니다. 이런 상황에서 개인과 소규모 기업 수준을 위한 추론 소프트웨어 생태계는 제한적인 수준으로 머무르고 있었습니다. 맥북, 맥 스튜디오 등 이미 많은 개발자와 연구자가 손에 쥐고 있는 애플 디바이스를 고성능 AI 추론 인프라로 전환할 수 있다면, GPU 수급이라는 높은 장벽 없이도 실질적인 AI 연구와 개발이 가능해집니다.

래블업은 mlxcel의 오픈소스 공개를 통해 AI 연구 역량의 분산이라는 더 큰 목표를 위해 나아가고자 합니다. 스타트업·학생·개발자 등 다양한 주체가 애플 생태계에서 AI 개발·학습·배포를 자유롭게 진행할 수 있도록 mlxcel을 지속적으로 발전시켜 나갈 계획입니다.

지원 범위 및 환경

mlxcel은 2026년 5월 기준 89개 이상의 모델 아키텍처를 지원하고 있습니다.

텍스트 패밀리: Llama, Qwen, Gemma, Phi, Mistral/Mixtral, DeepSeek, Cohere, InternLM, GLM, ExaOne, OLMo, ERNIE, Hunyuan, Mamba, RWKV, Jamba, Nemotron-H, MiniMax, Step, Kimi 등

VLM: Gemma 3/4 VLM, LLaVA, Llama 4, MiniCPM-O, Molmo, Moondream, Phi3-Vision, Phi4MM, Pixtral, Qwen2-VL, Qwen2.5-VL, Qwen3-VL, Qwen3.5-VL 등

운영체제/하드웨어 요구사항

  • macOS가 설치된 Apple Silicon 프로세서 기반의 애플 디바이스 (M1/M2/M3/M4/M5 시리즈)
  • Linux가 설치되고, NVIDIA CUDA를 지원하는 디바이스 (NVIDIA DGX Spark 등) 자세한 설치 요구사항은 다음 링크를 참조하세요.

빠르게 시작하기

macOS 환경이라면 다음 명령어로 바로 사용해볼 수 있습니다.

소스 빌드 (macOS Apple Silicon) git clone https://github.com/lablup/mlxcel.git cd mlxcel cargo build --release --features metal,accelerate 모델 다운로드 mlxcel download mlx-community/Meta-Llama-3.1-8B-Instruct-4bit 텍스트 생성 mlxcel generate -m ./models/Meta-Llama-3.1-8B-Instruct-4bit -p "Hello, world!" -n 100 OpenAI 호환 서버 실행 mlxcel serve -m ./models/Meta-Llama-3.1-8B-Instruct-4bit --port 8080

사전 빌드 바이너리는 리눅스 CUDA 환경에도 제공됩니다. 빌드 요구사항은 macOS의 경우 Rust 1.85+, Xcode Command Line Tools, Metal 툴체인이며, 리눅스 CUDA 환경은 CUDA Toolkit 13.0+, cuDNN 9+가 필요합니다. GUI 환경을 선호한다면 AI:GO를 다운로드해 mlxcel과 연동하는 방법도 있습니다.

AI:GO와 함께 사용하기

mlxcel은 래블업의 로컬 AI 플랫폼 AI:GO(에이아이:고) 의 백엔드 추론 서버로도 바로 활용할 수 있습니다. AI:GO는 macOS, Windows 및 Linux에서 동작하는 데스크톱 기반 AI 모델 운용 플랫폼으로, MLXcel을 백엔드 서버로 연결하면 GUI 환경에서 모델 관리·채팅·API 서빙을 한 번에 처리할 수 있습니다. 직접 CLI를 다루기 어려운 사용자도 AI:GO를 통해 mlxcel의 고성능 추론 기능을 손쉽게 활용할 수 있으며, 맥북·맥 스튜디오에서 온프레미스 AI 환경을 빠르게 구성할 수 있습니다. AI:GO는 공식 매뉴얼 페이지에서 다운로드 및 설치 방법을 확인할 수 있습니다.

상세 벤치마크 결과 바로가기

mlxcel 깃허브: github.com/lablup/mlxcel | 라이선스: Apache License 2.0

AI:GO 매뉴얼: go.backend.ai/ko/manual

도움이 필요하신가요?

내용을 작성해 주시면 곧 연락 드리겠습니다.

문의하기

본사 및 HPC 연구소

KR Office: 서울특별시 강남구 선릉로 577 CR타워 8층 US Office: 3003 N First st, Suite 221, San Jose, CA 95134

© Lablup Inc. All rights reserved.

개인정보를 소중히 여깁니다

사용자 경험 향상, 사이트 트래픽 분석 및 방문자 동향 파악을 위해 쿠키를 사용합니다. "모두 수락"을 클릭하면 쿠키 사용에 동의하는 것입니다. 자세히 보기