엔지니어링

Jun 29, 2025

엔지니어링

변화의 중심에서, AI를 쉽게 활용하도록 만드는 Backend.AI의 접근 방법

  • 송영숙

    연구원

Jun 29, 2025

엔지니어링

변화의 중심에서, AI를 쉽게 활용하도록 만드는 Backend.AI의 접근 방법

  • 송영숙

    연구원

1. 도입

Backend.AI는 AI 인프라 전체를 관리하는 인공지능 인프라 운영 플랫폼(AI Infrastructure Operating Platform)으로, "Make AI Accessible"이라는 래블업의 비전을 기술적으로 구현한 핵심 성과물이다. 래블업은 최근 Backend.AI를 중심으로 더 넓은 생태계를 포용하기 위해 다양한 제품군을 개발하고 있으며, "What You Want Is What You Get"이라는 모토 하에 'PALI', 'PALI PALI', 'PALANG' 등의 AI 모델 서빙 서비스를 통해 연구 단계부터 생산 환경까지 폭넓게 지원하고 있다. 본 아티클에서는 Backend.AI의 핵심 기술인 fGPU 가상화와 Sokovan 스케줄러의 기술적 특성, 그리고 PALI 서비스군의 주요 특징을 살펴볼 예정이다. <관련 발표> Backend.AI 와 AI 칩의 하모니: AI 하드웨어의 모든 음색을 한 무대에!

<그림 1> Backend.AI의 핵심 기술 개요도

2. 자원 효율성

2.1. GPU 가상화 기술: fGPU

GPU 가상화 기술은 매우 기술적인 영역이며, 각 방식마다 고유한 설계 철학과 사용 사례가 있다. NVIDIA의 MIG와 MPS는 둘 다 GPU를 나눠서 사용할 수 있게 해주는 솔루션이라는 점에서는 같지만, 실제 동작 방식과 적합한 사용 시나리오는 모두 다르다. Backend.AI의 고유한 기술인  fGPU(Container-level GPU virtualization)는 multi-GPU 환경에서 하나의 GPU를 분할하여 공유하거나 다중 GPU 를 하나의 컨테이너에 할당하여 사용할 수 있도록 컨네이너 수준에서 분할하는 방식을 취했다. (관련 특허 : 키프리스 특허.실용신안 상세 보기).

<그림 2> 컨테이너 단위 GPU 가상화 처리 흐름

컨테이너 기반의 GPU 가상화를 간단히 설명하면, 컨테이너가 만들어지면 일종의 관리 시스템인 노드 컨트롤러가 'GPU를 얼마나 사용할 수 있는지' 등에 대한 정보를 담고 있는 설정 파일과 API 프로파일을 컨테이너에 전송한다. 그 다음 컨테이너가 실행되면, 프로그램이 GPU를 사용하려고 할 때마다 중간에서 이를 체크하고 조절한다. 마지막으로 시스템 명령을 통해 가상의 GPU를 만들어 각 컨테이너마다 자신만의 GPU가 있는 것처럼 동작하게 한다. 이와 같은 분할 방식은 하나의 GPU라도 여러 사용자가 안전하게 공유하도록 하기 위한 것으로, 비유하자면 각 컨테이너로 독립되어 있는 세대를 모아 하나의 집과 같은 조합을 만드는 것과 같다. 이렇게 하면 각각의 세대는 독립된 삶의 방식을 가지면서도, 유연하게 집 안의 공간을 활용할 수 있게 되는 것이다.

참고 자료 : GPU 가상화를 통한 컨테이너 별 GPU 분할 할당

래블업의 컨테이너 수준 GPU 분할가상화 기술은 논리적 분할 방식의 유연성과 강력한 프로세스 격리 메커니즘을 결합하여, 성능과 보안을 동시에 확보한 고수준 솔루션이다. 이 외에도 NVIDIA의 데이터센터용 GPU 라인업 뿐만 아니라 RTX시리즈와 같은 소비자 수준 GPU까지 폭넓게 지원하여 특정 GPU에 의존성이 있는 기술 대비 넓은 범용성을 갖췄다.

GPU 가상화의 효용성을 검증하기 위해 Llama-6B 모델을 다양한 GPU 구성에서 운영해 본다고 가정해 보자. 관리자는 H100 80GB를 각각 8GB의 메모리를 갖는 fGPU 10개로 분할할 수 있기 때문에 H100 80GB 단일 GPU를 통째로 점유하지 않고, 필요한 만큼만 잘라 쓸 수 있는 장점이 있다. fGPU를 활용하여 여러 작업을 동시에 실행하면 전체 GPU 메모리 활용률을 높일 수 있다.

모델 1개로 테스트한 후 실험을 추가하는 환경이라면 모델 크기별 GPU 선택 전략을 세울 필요가 있을 것이다. 이때, 7B 이하의 소형 모델들은 멀티테넌트 환경에서 fGPU가 효율적일 수 있다. 이론적으로 Gemma-2B 모델을 fGPU 1개에 할당했을 때 GPU 메모리 활용률이 60%(4-bit 양자화 시 41% 활용률)인 반면, RTX 4090 전체를 할당했을 때는 메모리 활용률이 모델 및 양자화 방식에 따라 17%~26% 정도이다. 반면 13B-30B 범위의 중형 모델들은 단일 작업 환경에서는 RTX 4090과 같은 고성능 단일 GPU가 더 적합할 수 있다.

이러한 차이는 사용 패턴에 따라 명확해진다. AI API 서비스처럼 다양한 사용자가 서로 다른 소형 모델을 사용하는 멀티테넌트 환경에서는 fGPU가 최적이다. 각 사용자가 GPT-2(1.5B), BERT(340M), T5-small(60M) 등 다양한 모델을 독립적으로 운영하면서도 하나의 H100을 효율적으로 공유할 수 있다. 반대로 자체 챗봇 서비스처럼 Llama-2-13B 단일 모델을 집중적으로 사용하는 전용 서비스에서는 RTX 4090 2개가 더 나은 선택일 수 있다.

2.2 자원 할당 및 회수 스케줄링 기능: Sokovan 성능 최적화

2.2.1. 시장에 출시된 모든 GPU를 지원함

Sokovan은 복잡한 AI 인프라 관리를 단순화하고 효율화하기 위해 설계된 래블업의 다단계 스케줄링 시스템이다. Sokovan의 구조는 상위 클러스터 레벨과 하위 노드 레벨의 구조로 운영된다. 상위 레벨에서는 클러스터 매니저가 전체적인 컨테이너 스케줄링을 담당하고, 하위 레벨에서는 각 GPU 노드의 노드 레벨 리소스 스케줄러(에이전트)가 세부적인 자원 관리를 수행한다. 에이전트는 컨테이너와 디바이스를 매핑하고, 하드웨어 용량과 레이아웃을 보고하며, NVIDIA CUDA, Intel Gaudi, AMD ROCm, Google TPU, Graphcore IPU 등 다양한 컴퓨팅 플러그인을 지원한다.

<그림 3> Backend.AI's 자원 최적화 비유 그림

AI 워크로드의 성능에 영향을 미치는 시스템 아키텍처의 개념을 보다 쉽게 비유해 볼 수 있다. CPU가 물리적으로 가까운 로컬 메모리에 접근하는 과정은 우리가 집 냉장고에서 물을 꺼내 마시는 것에 비유할 수 있다. 당연히 집 안에서 행동이 발생하기 때문에 이같은 행위는 매우 빠르게 일어난다. 그러나 냉장고에 물이 없어서 옆 집에 가서 빌려 와야 한다면, 집 안에서 이동하는 것 보다 더 먼 거리를 이동해야 하는 번거로움이 생긴다. 이는 CPU와 멀리 떨어져 있는 원격 메모리에 접근하는 과정과 비유될 수 있다.

일반적인 컨테이너 오케스트레이션 도구인 Kubernetes와 같은 스케줄러들이 범용성에 초점을 맞추는 것과 달리, Backend.AI의 스케줄러는 AI 워크로드의 특성을 고려하여 최적의 자원 배치 결정을 내린다. Backend.AI의 스케줄러는 관련 컴포넌트들을 물리적으로 가깝게 위치시킴으로써 데이터가 시스템 내에서 이동하는 시간과 거리를 줄이고, AI 작업의 성능을 크게 향상시킨다.

Backend.AI의 디자인 철학은 '유연성을 잃지 않으면서도 효율성을 극대화하는 것'이다. 이 철학에 따라 Backend.AI가 가지는 두 가지 특징이 있다. 첫째는 유연한 컴퓨팅 세션 방식을 확보하는 것이고, 둘째는 맞춤형 스케줄러를 통해 효율성을 극대화하는 것이다.

유연한 컴퓨팅 세션을 확보하기 위해 Backend.AI는 Pod 개념을 사용하지 않는다. 미리 정해진 Pod 없이 필요에 따라 컨테이너를 생성할 수 있도록 구현한 것이 특징이다. 이는 컨테이너를 마치 휘발성 프로세스처럼 취급하면서도 볼륨 마운트를 통해 데이터 지속성을 보장한다. 또한 상황에 맞는 효율적인 사용을 위해 Backend.AI에서는 FIFO, DRF(자원 공정성 알고리즘), 사용자 정의 알고리즘 등을 상황에 맞게 선택할 수 있다.

이러한 특징에 더해 Backend.AI가 가지는 강점이 바로 멀티테넌시를 지원하는 소프트웨어라는 점이다. 하나의 소프트웨어 인스턴스가 여러 테넌트에게 서비스를 제공할 수 있도록 소프트웨어가 설계되어 있기 때문에 단일 인스턴스를 통해 다수의 사용자의 접근을 가능하게 한다. 이러한 접근 덕분에 공용 SaaS 서비스가 가능하며, 사용자와 프로젝트를 Linux 시스템 계정과 분리하여 유연한 데이터 공유와 함께 사용자 맞춤, 안정적인 서비스 확장이 가능하다.

2.2.2. 하나의 기업에 종속적이지 않고 모든 종류의 하드웨어와 컨테이너 그리고 디바이스를 지원함

Sokovan의 시스템 구조는 클러스터 레벨과 노드 레벨로 나뉘어 운영된다. 상위 레벨의 클러스터 매니저가 전체적인 컨테이너 배치를 결정하면, 하위 레벨의 노드 에이전트가 각 GPU 노드에서 세부적인 자원 관리를 담당한다. 이 에이전트는 NVIDIA CUDA, Intel Gaudi, AMD ROCm, Google TPU, Graphcore IPU 등 다양한 하드웨어를 지원하며, 하드웨어와 컨테이너, 디바이스를 연결하는 역할을 한다.

Sokovan의 핵심 강점은 NUMA 인식 자원 매핑에 있다. 따라서 컴퓨터 하드웨어의 메모리 구조를 이해하여 CPU-GPU-RAM을 효율적으로 배치한다. GPU 간의 데이터 전송 속도를 균등하게 유지하고, 서로 다른 메모리 영역의 GPU에 적합한 CPU 코어를 할당한다. 또한 공정한 자원 분배 알고리즘(DRF)을 GPU까지 확장하여 다양한 종류의 GPU가 섞인 클러스터에서도 공평하게 자원을 나누어 준다.

<그림 4> NUMA 인식 자원 매핑 설계 그림 (출처: Backend.AI: Sokovan)

둘째로 자동 자원 회수 시스템이 운영 효율성을 높인다. 시스템은 GPU 사용률 0%나 CPU 사용률 5% 미만인 상태로 10분 이상 지속되거나, 1시간 동안 네트워크 활동이 없거나, 세션 시작 후 12시간이 지나면 자동으로 자원을 회수한다. 특히 배치 작업의 경우 프로그램이 끝나면 즉시 자원을 해제하여 다른 사용자가 활용할 수 있도록 한다. 또한 사용자/그룹별 최대 자원 용량 설정 기반의 자동 자원 할당, 활용률(GPU 사용률 0%, CPU 사용률 5% 미만이 10분 이상 지속), 상호작용(1시간 동안 네트워크 트래픽 없음), 사용 시간(세션 시작 후 12시간 경과) 등 다양한 기준을 통한 유휴 자원이 자동으로 회수된다. 이를 통해 임의의 사용자가 세션을 잡아두고 활용하지 않아 다른 사용자가 자원을 활용하지 못하는 상황을 막을 수 있게 된다. 배치 세션과 파이프라인 작업의 경우 메인 프로그램 종료 시 자동으로 자원을 해제하는 스마트한 관리 체계를 갖추고 있다.

<그림 5> 운영 중인 서비스에서 자원 수거가 적용된 예시

<관련 발표> [OpenInfra Summit 2023] Sokovan: Container Orchestrator for Accelerated AI/ML Workloads and Massive-scale GPU Computing

Sokovan에 대한 이해를 돕기 위해서 Sokovan과 기존 오케스트레이터를 비교하면 다음과 같다고 할 수 있다.

특성SokovanKubernetesSlurm
설계 초점AI 워크로드에 최적화컨테이너 워크로드HPC 워크로드
확장성단일 노드에서 클러스터까지클러스터 중심클러스터 중심
AI 특화 기능NUMA 인식, GPU 최적화, 모델 서빙 기본 지원제한적제한적 GPU 지원

2.2.3. 배포 유연성: 어디서나 동일한 AI 경험

<그림 6> 온프레미스와 클라우드, 하이브리드를 모두 지원하는 Backend.AI

Backend.AI의 주요 차별점 중 하나는 다양한 환경에서 일관된 사용자 경험을 제공하는 배포 유연성이다. 온프레미스 환경에서는 엄격한 엔터프라이즈급 보안 정책과 다양한 규정 준수 요구 사항을 충족시키는 동시에, 기업이 이미 구축해 놓은 데이터센터 인프라와 매끄럽게 연동된다. 특히 데이터 주권 이슈가 있거나 보안에 민감한 워크로드를 안전하게 처리할 필요가 있는 조직들에게 이상적인 환경을 제공한다. 퍼블릭 클라우드 환경에서는 AWS, Azure, GCP, 네이버 클라우드와 같은 주요 클라우드 서비스에 손쉽게 배포할 수 있으며, 클라우드 제공업체의 서비스와 자연스럽게 통합된다.

클라우드와 온프레미스 환경 사이에서 워크로드를 자유롭게 이동할 수 있는 하이브리드 환경에서는 비용과 성능 측면에서 최적의 선택을 할 수 있다. 어떤 워크로드는 민감한 데이터 처리를 위해 온프레미스에서, 확장성이 필요할 때는 클라우드에서 실행하는 유연한 자원 분배가 가능하다. Backend.AI를 통하면 모든 다양한 환경을 단일 관리 인터페이스를 통해 일관되게 제어할 수 있어 운영 복잡성을 크게 줄이고 효율성을 높일 수 있다. 위의 기능을 프로비저닝부터 모니터링까지라는 AI 인프라 생명주기 관리라는 측면에서 살펴보면 다음 이미지와 같다.

<그림 7> AI 인프라 생명주기 관리

여기서 Provisioning adapters (프로비저닝 어댑터)는 새로운 자원(서버, 스토리지 등)을 자동으로 할당하고 설정하는 기능을 한다. 이 어댑터를 통해 클라우드나 데이터센터에 필요한 인프라가 신속하게 준비되면, CSP API layer (클라우드 서비스 프로바이더 API 계층)가 OpenStack, AWS, Azure, GCP 등 다양한 클라우드 환경과 연결하여 배포 과정을 이어간다. 이 계층은 각 클라우드 서비스의 고유 기능을 Backend.AI에 통합하여 환경에 상관없이 일관된 경험을 제공한다.

자원이 할당되고 나면, HW layout awareness (하드웨어 레이아웃 인식) 기능이 작동하여 물리적 하드웨어의 구성과 토폴로지를 분석한다. 이를 통해 GPU, CPU, 메모리, 네트워크 인터페이스 간의 물리적 관계를 파악하고, AI 워크로드에 최적화된 자원 배치를 결정한다. 예를 들어, 데이터와 연산 장치의 물리적 거리를 최소화하여 데이터 전송 지연을 줄이는 배치를 선택한다.

마지막으로, 모든 자원이 배포되고 작업이 시작되면 HW Monitoring (하드웨어 모니터링) 시스템이 지속적으로 배포된 환경을 감시한다. 모니터링 시스템은 자원 사용률, 온도, 전력 소비, 오류 상태 등을 실시간으로 추적하며, 이상 징후가 감지될 경우 즉시 알림을 발송, 자동으로 대응 조치하거나 관리자에게 조치가 필요한 상황을 보고하여 시스템의 안정성과 성능을 유지한다.

3. 사용자 중심 변화에 초점을 맞춘 모델 서빙 서비스

그동안 래블업은 AI 개발자의 업무를 돕고, 조직 관점의 AI 생산성을 올릴 수 있는 B2B 서비스 개발에 주력했다면, 최근에는 개발자 개개인에게 도움을 줄 수 있는 서비스의 개발에도 박차를 가하고 있다. 최근 시장에 선보인 "PALI", "PALI PALI", "PALANG" 이라는 세 가지 AI 모델 서빙 서비스를 비롯해 챗봇 인터페이스 Talkativot이 그 주인공이다. 이 서비스들은 AI 모델 활용의 진입장벽을 낮추고 사용자 경험을 단순화하는 데 초점을 맞추고 있다.

3.1. PALI: 모델 서빙

'PALI(Perfermant AI Launcher)'는 사전 훈련된 AI 모델을 쉽고 빠르게 배포할 수 있는 모델 서빙 플랫폼으로 온프레미스 및 에어갭 환경에서도 쉬운 시스템 구축과 운영을 지원한다. 특히 애플리케이션 사용을 전제한 서비스 포탈과 엔드포인트 제공 기능을 비롯하여, NIM에서 나오는 시뮬레이션 기능과 라이센스 관리를 한 곳에서 통합 관리할 수 있는 장점이 있다. 사용자는 복잡한 CLI나 어려운 과정 없이 모델을 빠르게 서빙하고, 서비스 엔드포인트를 쉽게 제공받아 활용할 수 있다.

<그림 8> 모델 서비스 흐름

구분정의특징협력사 또는 제품 예시
PALIAI 모델 추론을 위한 AI 런처백엔드 AI의 모델 플레이어와 모델 스토어의 조합다양한 사전 훈련된 모델 (Gemma 2, Qwen, Llama 2, Llama 3 등) 지원

<그림 9> PALI 모델 스토어

PALI는 자체 제공 모델뿐만 아니라 Hugging Face, NVIDIA NIM, 캐글 등 다양한 서드파티 모델을 지원한다. 모델 카탈로그(모델 스토어)에서는 라마, 잼마 등의 다양한 모델을 직관적인 카드 형태로 제시하며, 사용자는 모델 카드를 클릭하는 것만으로 간편하게 추론 서비스를 실행할 수 있다.

언어 모델, 이미지 생성 모델 등 최신 생성 AI 모델을 앱처럼 간편하게 실행할 수 있으며, 추론 기능에 특화되어 있다는 특징을 가진다. 특히 간편한 라이센스 관리 및 시뮬레이션 기능을 제공하여, 개발 지식이 없는 예술가나 연구자, 이미지 처리를 원하는 일반 사용자들도 다양한 AI 모델을 손쉽게 체험하고 활용할 수 있도록 구성하였다.

3.2. PALANG: 언어 모델 특화 플랫폼

'PALANG'은 언어 모델(LLM) 활용에 특화된 플랫폼으로, 기본적인 모델 서빙 기능에 파인튜닝과 채팅 인터페이스(Talkativot)가 추가되었다.

<그림 10> 채팅 인터페이스 예시

구분정의특징협력사 또는 제품 예시
PALANGPALI 기능에 언어 모델 관리를 위한 툴이 추가된 플랫폼. (PALI + LANGuage model)모델 인퍼런스(플레이) 기능 기본 제공 (PALI와 동일). 사전 훈련된 모델에 대한 파인 튜닝 기능 추가 (FastTrack 2 예정)챗봇 비교 인터페이스(Talkativot). Llama 등 언어 모델 파인 튜닝

PALANG은 사용자가 맞춤형 언어 모델을 쉽게 서비스로 만들 수 있는 플랫폼이다. 자연어 인터페이스를 통한 파인 튜닝, 텍스트 명령을 통한 모델 가져오기, 그리고 챗봇 인터페이스(Talkativot)를 통한 파인 튜닝된 모델 비교 및 활용 등의 기능을 제공한다.

<관련 발표> [Track3_6] 현기증 난단 말이에요!: PALI, PALI PALI and PALANG - 황은진(래블업)

#4. 결론: AI 인프라의 기능 요약 Backend.AI는 fGPU 가상화, Sokovan 스케줄러, PALI 서비스군, 멀티 벤더 GPU 지원이라는 네 가지 핵심 기술을 바탕으로 기업들이 ML 모델을 효율적으로 개발, 배포, 관리할 수 있는 통합 플랫폼을 제공한다. 이러한 아키텍처를 통해 복잡한 AI 워크플로우를 단순화하고, 다양한 환경에서 일관된 서비스를 구현할 수 있다.

특히 컨테이너 수준의 GPU 분할을 통한 성능 효율 최적화와 실시간 동적 할당 조정, AI 워크로드에 특화된 자원 관리를 위한 NUMA 인식 및 자원 매핑 기술은 Backend.AI만의 차별화된 경쟁력이다. 또한 복잡한 기술 지식 없이도 AI 모델을 활용할 수 있는 PALI 서비스군과 다양한 벤더의 GPU와 AI 가속기를 지원하는 기술력을 보유하고 있다.

<그림 11> 인프라 기능 요약도

AI 인프라의 과제는 앞으로 더욱 복잡해질 것이 분명하다. 모델이 대형화되고 학습과 추론이 일반화됨에 따라, 다중 장비에 걸친 워크로드 관리와 조율이 핵심 과제가 되고 있다. 특히 대규모 ML 워크로드를 운영하는 기업이나 멀티 클라우드 전략을 추구하는 기업, 그리고 온프레미스와 클라우드를 함께 사용하는 하이브리드 환경의 기업 및  작은 규모에서 시작하여 필요에 따라 확장할 수 있는 유연성을 제공한다는 점에서 도움이 될 것이다. 단일 서버나 소규모 클러스터에서도 완전한 기능을 구현할 수 있으며, 사업 규모가 커지면 노드를 추가하여 수천 대 규모까지 확장이 가능하다. 무엇보다 기존 서비스에 영향을 주지 않으면서 자원을 추가할 수 있어, 안정적이고 지속적인 AI 서비스 운영을 지원하기 때문이다. 앞으로도 Backend.AI는 'Make AI Accessible'이라는 비전 아래 더 많은 기업과 개발자들이 AI 기술의 혜택을 누릴 수 있는 생태계 구축에 기여하고자 한다.

Backend.AI Cloud에서 모델 서비스 데모 사용해보기

도움이 필요하신가요?

내용을 작성해 주시면 곧 연락 드리겠습니다.

문의하기

본사 및 HPC 연구소

KR Office: 서울특별시 강남구 선릉로 577 CR타워 8층 US Office: 3003 N First st, Suite 221, San Jose, CA 95134

© Lablup Inc. All rights reserved.