유휴에서 유능으로

컨테이너 수준 GPU 분할가상화

Backend.AI 독자 특허 기술로, 컨테이너 내부 CUDA API 호출을 가로채 GPU 리소스를 소프트웨어 수준에서 정밀하게 제어합니다. 하드웨어 변경 없이 물리 GPU 하나를 여러 사용자가 안전하게 공유하면서도 워크로드 간 완전한 격리를 보장합니다.

작동 원리

코드 한 줄 바꾸지 않고 GPU를 나눠 쓰는 방법

기존 AI 워크로드를 그대로 유지하세요. Backend.AI의 가상화 레이어가 애플리케이션과 물리 GPU 사이에서 투명하게 동작합니다.

01투명한 소프트웨어 가상화

Backend.AI GPU 가상화 레이어가 기존 애플리케이션의 재작성, 재컴파일 없이 동작하도록 합니다.

02정밀한 자원 분할

GPU 연산과 메모리를 컨테이너 단위로 분할하여 정밀한 소수점 단위로 배분이 가능합니다.

03워크로드 격리

각 컨테이너의 GPU 워크로드가 완전히 격리되어 사용자 간 간섭을 방지합니다.

04보안 샌드박싱

컨테이너 수준의 보안 샌드박싱으로 다중 사용자 보안 위협을 차단합니다.

05동적 자원 조정

GPU 재시작이나 실행 중인 워크로드 중단 없이 실시간으로 GPU 자원을 재배분합니다.

Backend.AI 가상화 아키텍처

애플리케이션 레이어

User A

PyTorch

User B

TensorFlow

User C

vLLM

User D

Jupyter

보안 레이어

보안 샌드박싱

가상화 레이어

Backend.AI GPU 분할가상화

컨테이너 수준 GPU 분할가상화 • 특허 기술

시스템 레이어

운영체제 & 디바이스 드라이버

하드웨어

NVIDIA GPU

AMD / Intel NPU

고속 네트워크

GPU 공유 모드

유연한 GPU 자원 배분

GPU 분할 공유

물리 GPU를 정밀한 소수점 단위로 분할하여 여러 사용자가 동시에 공유합니다. 교육, 추론, 개발 워크로드에 적합합니다.

Physical GPUNVIDIA A100 80 GB
User A28 GB
User B24 GB
User C16 GB
User D12 GB

컨테이너 A

0.35

컨테이너 B

0.30

컨테이너 C

0.20

컨테이너 D

0.15

MIG 혼합 사용도 지원

fGPUSoftware
+
NVIDIA MIGHardware

다중 GPU · 다중 노드

자동 오버레이 네트워크와 RDMA 지원으로 하나의 작업을 여러 GPU와 노드에 걸쳐 실행합니다.

Node 1

GPU 1
GPU 2
GPU 3
···
GPU 8

Node 2

GPU 1
GPU 2
GPU 3
···
GPU 8

Node 3

GPU 1
GPU 2
GPU 3
GPU 4
GPU 5
GPU 6
GPU 7
GPU 8

컨테이너 A

16 GPU · 2 Nodes

컨테이너 B

2 GPU

컨테이너 C

6 GPU

기술 비교

GPU 가상화 기술 비교

비교 항목Backend.AI fGPUNVIDIA MIGNVIDIA MPS
구현 방식순수 소프트웨어하드웨어 기반프로세스 레벨
분할 유연성동적 분할 (0.01 단위)고정 인스턴스 (최대 7)동적 (메모리 기반)
런타임 재조정지원GPU 리셋 필요제한적
오류 격리완전 격리HW 수준 격리격리 약함
멀티테넌시네이티브 지원제한적미지원
이종 GPU 지원NVIDIA, AMD beta, Intel beta, +αNVIDIA A100/H100 이상NVIDIA 전용
온프레미스 / 에어갭완전 지원지원 (HW 의존)지원 (HW 의존)
성능 오버헤드MPS와 유사거의 없음 (HW 분할)낮음
MIG 혼합 사용지원미지원

GPU 가상화의 효과

비즈니스 임팩트

400%

GPU 활용률 극대화

평균 20-30% GPU 활용률을 소프트웨어 가상화를 통해 최대 용량에 가깝게 끌어올리고, 유휴 자원을 제거합니다.

110%

파이프라인 성능 향상

데이터 전처리, 학습, 추론을 공유 GPU에서 동시에 실행하여 단계 간 유휴 대기를 제거하고 엔드투엔드 ML 파이프라인을 가속합니다.

75%

인프라 비용 절감

같은 물리 GPU로 더 많은 워크로드를 처리합니다. 추가 GPU 구매 없이 AI 역량을 확장합니다.

2x

GPU 생애주기 관리

학습용 GPU를 추론 워크로드에 재활용합니다. 유연한 배분으로 레거시 장비 활용을 극대화합니다.

적용 사례

적용 사례

GPU 가상화를 활용하는 다양한 산업과 워크로드.

Education

대학 · 연구기관 GPU 클러스터 공유

수백 명의 연구자와 학생이 제한된 GPU 자원을 공정하게 공유합니다. 멀티테넌시와 미터링으로 투명한 자원 배분이 가능합니다.

Finance

금융기관 폐쇄망 LLM 운영

폐쇄망 환경에서 내부 LLM을 개발하고 운영합니다. 제한된 자원을 효율적으로 활용하면서 완전한 데이터 주권을 보장합니다.

Cloud

클라우드 GPU-as-a-Service

CSP가 고객에게 세분화된 GPU 자원을 배분합니다. 프랙셔널 GPU 기반 세계 최초 상용 추론 서비스를 구현합니다.

Training

대규모 분산 학습

500대 이상 GPU로 파운데이션 모델을 학습합니다. 73일 무중단 운영과 47% 빠른 장애 복구를 달성했습니다.

Research

생명과학 시뮬레이션

분할된 GPU 환경에서 GPU 가속 분자 시뮬레이션을 실행합니다. 다양한 실험을 동시에 수행하면서 연구 비용을 절감합니다.

Enterprise

엔터프라이즈 사내 AI 개발

부서별 GPU 자원을 격리하고 사용량을 계량하여 공정하게 배분합니다. 수동 GPU 배분에서 자동화된 통합 관리로 전환합니다.

GPU 활용률 향상을 직접 확인해 보세요

Backend.AI GPU 분할가상화 효과를 귀사의 GPU 인프라에서 직접 시연해 드립니다.

기술 문서 보기

도움이 필요하신가요?

내용을 작성해 주시면 곧 연락 드리겠습니다.

문의하기

본사 및 HPC 연구소

KR Office: 서울특별시 강남구 선릉로 577 CR타워 8층 US Office: 3003 N First st, Suite 221, San Jose, CA 95134

© Lablup Inc. All rights reserved.

개인정보를 소중히 여깁니다

사용자 경험 향상, 사이트 트래픽 분석 및 방문자 동향 파악을 위해 쿠키를 사용합니다. "모두 수락"을 클릭하면 쿠키 사용에 동의하는 것입니다. 자세히 보기