소식
래블업 및 Backend.AI와 관련된 새 소식입니다.

Backend.AI가 인텔 Arc Pro B70 워크스테이션 GPU를 공식 지원합니다. 이로써 래블업은 기존에 지원해 온 인텔 Gaudi 2/3 AI 가속기에 이어 Arc 그래픽 라인업까지 지원 범위를 넓히게 되었습니다. 이제 데이터센터의 Gaudi부터 워크스테이션의 Arc Pro까지, 인텔 AI 반도체 전반을 Backend.AI 하나로 연결하여 관리할 수 있습니다.
데스크톱에서 데이터센터까지, 하나의 플랫폼으로
Backend.AI는 여러분의 AI 비즈니스를 극대화시키기 위해 시중의 다양한 GPU와 AI 가속기를 지원하고 있으며, 사용자들이 편리하게 사용할 수 있도록 직관적인 사용자 인터페이스를 제공하고 있습니다. 고객은 가장 작은 수준의 언어 모델부터 거대 언어모델까지 AI 모델의 크기에 구애받지 않고 AI 모델을 효과적으로 구축, 학습, 제공할 수 있어 서비스 개발과 운영의 비용, 복잡성을 크게 줄일 수 있습니다. Backend.AI는 생성형 AI와 가속 컴퓨팅의 잠재력을 최대한 이끌어내 최첨단 기술을 통해 여러분의 비즈니스를 혁신할 수 있는 열쇠가 되어가고 있습니다.
래블업은 과학자, 연구원, DevOps, 기업 및 AI 애호가들이 AI 서비스를 효율적이고, 확장 가능한 형태로 사용할 수 있도록 하기 위해 최선을 다하고 있습니다. 우리는 인텔과 함께 오늘날 널리 사용되고 있는 생성 AI 및 딥 러닝 기반 서비스의 성공을 위해 긴밀히 협력하고 있습니다. 인텔 XPU를 공식 지원 목록에 추가하면서, 래블업은 기존 Backend.AI의 관리 범위를 워크스테이션 카드까지 확장했습니다. 워크스테이션에 꽂힌 B70 한 장부터, 여러 대로 구성한 공유 클러스터, 데이터센터의 Gaudi까지 같은 플랫폼에서 운영할 수 있습니다.
Backend.AI®에 대해 자세히 알아보려면, backend.ai를 방문하세요.
Intel Arc Pro B70에 대하여
에이전틱 AI 워크로드에서는 단일 요청의 지연 시간보다, 여러 에이전트를 동시에 안정적으로 운영하는 지속 처리량이 더 중요해지고 있습니다. 코딩 에이전트처럼 긴 컨텍스트를 유지하는 시나리오에서는 KV 캐시가 GPU 메모리를 빠르게 점유하고, 실제 서비스 환경에서는 이러한 에이전트가 동시에 수십 개 이상 실행됩니다. 이때 메모리가 부족해지면 캐시 축출과 재연산이 반복되면서 처리량이 급격히 저하됩니다.
Intel Arc Pro B70은 이러한 병목을 완화하기 위해 설계된 Xe2(코드명 Battlemage) 아키텍처 기반의 워크스테이션 GPU로서, 32GB GDDR6 ECC 메모리와 608GB/s 메모리 대역폭, 최대 367 TOPS INT8 연산 성능을 제공합니다. 특히 32GB 메모리 구성은 동급 워크스테이션 GPU 대비 여유 있는 용량으로, KV 캐시 유지 시간을 늘리고 더 높은 동시성을 안정적으로 수용할 수 있도록 합니다.
이러한 특성은 Backend.AI의 세션 기반 격리 환경과 결합될 때 더욱 효과를 발휘합니다. 각 에이전트를 독립 세션으로 실행하면서도, GPU 메모리 자원을 효율적으로 분배하여 워크스테이션 단일 노드에서도 높은 밀도의 AI 워크로드를 운영할 수 있습니다. B70은 개인 워크스테이션이나 소규모 팀 환경에서도 “데이터센터급 운영 방식”을 적용할 수 있게 해주는 현실적인 선택지입니다.
동시성 구간별 처리량 추이와 KV 캐시 용량 비교, 측정 방법론을 포함한 모델별 전체 수치는 Intel Arc와 Backend.AI의 만남: Arc Pro B70의 32GB 메모리가 에이전트형 AI에 제공하는 이점 솔루션 브리프에서 확인하실 수 있습니다.
벤치마크 환경
- 카드: Intel Arc Pro B70 (32 GB GDDR6) vs NVIDIA RTX PRO 4000 Blackwell (24 GB GDDR7 ECC).
- 노드: Intel Xeon w9-3475X, Ubuntu 25.10. B70 node 96 GB RAM; RTX PRO 4000 Blackwell node 256 GB RAM. 실행당 GPU 1장, 텐서 병렬화 1.
- 도구: vLLM
bench sweep, 요청 속도inf(모든 프롬프트를 동시에 제출하며, 동시성은 프롬프트 수와 동일). - 모델: GPT-OSS 20B, Qwen3 4B Instruct 2507, Qwen3 8B. KV 캐시 비교에는 Gemma-4-E4B-it, Qwen3.5-9B, Gemma-3n-E4B-it 포함.
- 메트릭: 출력 처리량 (tokens/s); 사용자당 처리량은 출력 처리량을 동시 요청 수로 나눈 값.
- 벤치마크 데이터: 인텔 & 래블업, 2026년 4월.