출시

Backend.AI의 신규 업데이트를 소개합니다.

May 18, 2026

출시

래블업, 애플 실리콘 특화 AI 추론 엔진 'mlxcel' 오픈소스 공개

  • 래블업 주식회사

    래블업 주식회사

    래블업 주식회사

May 18, 2026

출시

래블업, 애플 실리콘 특화 AI 추론 엔진 'mlxcel' 오픈소스 공개

  • 래블업 주식회사

    래블업 주식회사

    래블업 주식회사

래블업, 애플 실리콘 특화 AI 추론 엔진 'mlxcel' 오픈소스 공개

래블업이 애플 실리콘 환경에 최적화된 AI 추론 엔진 mlxcel을 오픈소스로 공개합니다. mlxcel은 래블업이 애플 실리콘 (M1~M5 시리즈) 등 애플 실리콘 환경 및 Linux 기반의 CUDA 환경에서 LLM·VLM(비전-언어 모델) 추론 성능을 극대화하기 위해 2025년부터 자체 개발한 AI 추론 엔진입니다. 애플의 머신러닝 프레임워크 MLX의 C++ 바인딩을 기반으로, 순수 Rust로 구현해 Python 런타임 없이도 동작한다는 점이 가장 큰 특징입니다. 기존 mlx-lm 대비 평균 119%의 디코딩 속도를 달성하며, 비교 가능한 모델의 95%에서 mlx-lm을 능가하는 SoTA 성능을 자랑합니다. mlxcel을 통해 맥북·맥 스튜디오에서의 뛰어난 성능을 바탕으로 거대언어모델(LLM)을 개발자 누구나 손쉽게 구동해보세요.

핵심 기술 요약

  • 80개 이상의 모델 아키텍처 지원: Llama, Qwen, Gemma, Phi, Mistral/Mixtral, DeepSeek, Mamba 등 트랜스포머, MoE, SSM/RNN, 하이브리드 모델 망라
  • 멀티모달 지원: Gemma 4, Llama 4, Qwen3-VL 등 20개 이상 VLM 지원, 오디오·영상 입력 처리
  • TurboQuant KV 캐시 압축: KV 캐시를 3~4.25 bit/value 수준으로 압축, 메모리 사용량 약 74%로 감소
  • 분산 추론: 인프로세스 텐서 병렬과 mDNS 자동 발견 기반 멀티 머신 파이프라인 병렬 지원
  • Speculative Decoding: MTP·DFlash 드래프터 모델을 활용한 추론 가속 지원
  • OpenAI 호환 서버: REST API와 SSE 스트리밍 제공, llama-server의 드롭인 대체재로 활용

성능 벤치마크

2026년 5월 19일 기준으로 MacBook Pro M5 Max와 Mac Studio M1 Ultra(각 128GB 통합 메모리)에서 mlxcel의 실제 추론 성능을 측정하였습니다. 텍스트 모델은 mlx-lm, 비전-언어 모델(VLM)은 mlx-vlm을 Python 기준 스택으로 삼아 동일한 호스트 위에서 직접 비교했습니다.

호스트모드기준 스택비교 쌍 수프리필 중앙값디코드 중앙값디코드 동등성 달성
M5 Max텍스트mlx-lm662.70x99%66개 중 62개 (≥90% 기준)
M1 Ultra텍스트mlx-lm741.76x99%74개 중 64개 (≥90% 기준)
M5 MaxVLMmlx-vlm220.94x101%22개 중 18개 (≥90% 기준)
M1 UltraVLMmlx-vlm181.33x98%18개 중 12개 (≥90% 기준)

대표 텍스트 모델 성능

mlxcel은 동일한 MLX 백엔드를 기반으로 하면서도 기존 mlx-lm 대비 전반적으로 높은 추론 처리량을 기록했습니다. SmolLM-135M-4bit 모델에서는 905 tok/s로 mlx-lm(712 tok/s) 대비 127% 수준의 성능을 달성했으며, Qwen2.5-0.5B등 다양한 아키텍처에서도 일관되게 성능 향상을 보였습니다. 아래 표를 통해 대표 모델의 성능을 확인해보세요.

호스트모델분류mlxcel 프리필mlxcel 디코드mlx-lm 디코드vs mlx-lm
M5 Maxsmollm-135m-4bitSmall dense6,058.41905.24711.54127%
M5 Maxqwen2.5-7b-4bitDense 7B917.38126.36123.59102%
M5 Maxgpt-oss-120b-4bitLarge MoE334.68114.03110.35103%
M5 Maxsolar-open-100b-4bitLarge MoE210.9165.3666.3099%
M5 Maxqwen3.5-35b-a3b-4bitHybrid MoE480.89151.63152.9699%
M5 Maxnemotron-h-30b-4bitHybrid SSM/MoE414.31177.18178.8099%
M1 Ultraphi-3.5-moe-4bitMoE112.1077.7169.28112%
M1 Ultraminicpm3-4b-4bitMLA241.4480.7873.26110%
M1 Ultraqwen2.5-0.5b-4bitSmall dense1,243.98349.52315.48111%
M1 Ultragpt-oss-120b-4bitLarge MoE114.1261.1957.58106%
M1 Ultracommand-r7b-4bitDense 7B81.17114.34107.75106%
M1 Ultrasolar-open-100b-4bitLarge MoE75.3736.2635.69102%

또한, 대표적 모델에서의 VLM Decode에서도 mlx-lm 대비 향상된 성능을 보여주고 있습니다.

HostModelClassmlxcel prefillmlxcel decodemlx-vlm decodevs mlx-vlm
M5 Maxqwen3.5-0.8b-4bitHybrid GatedDeltaNet VLM1,294.94505.94410.96123%
M5 Maxqwen3.5-35b-a3b-4bitHybrid MoE VLM355.32151.34128.80117%
M5 Maxgemma-4-e2b-it-4bitGemma 4 VLM2,787.47217.32201.70108%
M5 Maxgemma3n-e2b-4bitGemma 3n VLM2,893.48151.36124.63121%
M5 Maxmolmo2-4bMolmo2 vision encoder2,512.3164.0166.8096%
M1 Ultrallava-interleave-qwen-0.5b-bf16SigLIP + Qwen23,961.62265.57225.15118%
M1 Ultraaya-vision-8bSigLIP + Cohere2444.01113.59103.74110%
M1 Ultramolmo2-4bMolmo2 vision encoder727.2660.3160.8799%
M1 Ultraphi-3.5-vision-4bitCLIP + HD tiling991.67122.6392.53133%
M1 Ultrapixtral-12b-4bitPixtral ViT + Mistral447.9760.25

래블업이 mlxcel을 오픈소스로 공개한 이유

그동안 고성능 AI 추론 인프라는 엔비디아 GPU 서버와 대규모 클라우드를 확보할 수 있는 빅테크 중심으로 구성되어 왔습니다. 2026년 현재 H100 GPU는 주문 후 4~6개월, Blackwell(B200)은 12개월 이상을 기다려야 할 정도로 수급 불균형이 심각한 상황입니다. 이런 상황에서 개인과 소규모 기업 수준을 위한 추론 소프트웨어 생태계는 제한적인 수준으로 머무르고 있었습니다. 맥북, 맥 스튜디오 등 이미 많은 개발자와 연구자가 손에 쥐고 있는 애플 디바이스를 고성능 AI 추론 인프라로 전환할 수 있다면, GPU 수급이라는 높은 장벽 없이도 실질적인 AI 연구와 개발이 가능해집니다.

래블업은 mlxcel의 오픈소스 공개를 통해 AI 연구 역량의 분산이라는 더 큰 목표를 위해 나아가고자 합니다. 스타트업·학생·개발자 등 다양한 주체가 애플 생태계에서 AI 개발·학습·배포를 자유롭게 진행할 수 있도록 mlxcel을 지속적으로 발전시켜 나갈 계획입니다.

지원 범위 및 환경

mlxcel은 2026년 5월 기준 89개 이상의 모델 아키텍처를 지원하고 있습니다.

텍스트 패밀리: Llama, Qwen, Gemma, Phi, Mistral/Mixtral, DeepSeek, Cohere, InternLM, GLM, ExaOne, OLMo, ERNIE, Hunyuan, Mamba, RWKV, Jamba, Nemotron-H, MiniMax, Step, Kimi 등

VLM: Gemma 3/4 VLM, LLaVA, Llama 4, MiniCPM-O, Molmo, Moondream, Phi3-Vision, Phi4MM, Pixtral, Qwen2-VL, Qwen2.5-VL, Qwen3-VL, Qwen3.5-VL 등

운영체제/하드웨어 요구사항

  • macOS가 설치된 Apple Silicon 프로세서 기반의 애플 디바이스 (M1/M2/M3/M4/M5 시리즈)
  • Linux가 설치되고, NVIDIA CUDA를 지원하는 디바이스 (NVIDIA DGX Spark 등) 자세한 설치 요구사항은 다음 링크를 참조하세요.

빠르게 시작하기

macOS 환경이라면 다음 명령어로 바로 사용해볼 수 있습니다.

소스 빌드 (macOS Apple Silicon) git clone https://github.com/lablup/mlxcel.git cd mlxcel cargo build --release --features metal,accelerate 모델 다운로드 mlxcel download mlx-community/Meta-Llama-3.1-8B-Instruct-4bit 텍스트 생성 mlxcel generate -m ./models/Meta-Llama-3.1-8B-Instruct-4bit -p "Hello, world!" -n 100 OpenAI 호환 서버 실행 mlxcel serve -m ./models/Meta-Llama-3.1-8B-Instruct-4bit --port 8080

사전 빌드 바이너리는 리눅스 CUDA 환경에도 제공됩니다. 빌드 요구사항은 macOS의 경우 Rust 1.85+, Xcode Command Line Tools, Metal 툴체인이며, 리눅스 CUDA 환경은 CUDA Toolkit 13.0+, cuDNN 9+가 필요합니다. GUI 환경을 선호한다면 AI:GO를 다운로드해 mlxcel과 연동하는 방법도 있습니다.

AI:GO와 함께 사용하기

mlxcel은 래블업의 로컬 AI 플랫폼 AI:GO(에이아이:고) 의 백엔드 추론 서버로도 바로 활용할 수 있습니다. AI:GO는 macOS, Windows 및 Linux에서 동작하는 데스크톱 기반 AI 모델 운용 플랫폼으로, MLXcel을 백엔드 서버로 연결하면 GUI 환경에서 모델 관리·채팅·API 서빙을 한 번에 처리할 수 있습니다. 직접 CLI를 다루기 어려운 사용자도 AI:GO를 통해 mlxcel의 고성능 추론 기능을 손쉽게 활용할 수 있으며, 맥북·맥 스튜디오에서 온프레미스 AI 환경을 빠르게 구성할 수 있습니다. AI:GO는 공식 매뉴얼 페이지에서 다운로드 및 설치 방법을 확인할 수 있습니다.

상세 벤치마크 결과 바로가기

mlxcel 깃허브: github.com/lablup/mlxcel | 라이선스: Apache License 2.0

AI:GO 매뉴얼: go.backend.ai/ko/manual

도움이 필요하신가요?

내용을 작성해 주시면 곧 연락 드리겠습니다.

문의하기
lablup

본사 및 HPC 연구소

KR Office: 서울특별시 강남구 선릉로 577 CR타워 8층 US Office: 3003 N First st, Suite 221, San Jose, CA 95134

  • facebook
  • youtube
  • Linkedin
  • GitHub

© Lablup Inc. All rights reserved.

개인정보를 소중히 여깁니다

사용자 경험 향상, 사이트 트래픽 분석 및 방문자 동향 파악을 위해 쿠키를 사용합니다. "모두 수락"을 클릭하면 쿠키 사용에 동의하는 것입니다. 자세히 보기