엔터프라이즈 AI 인프라를 위한 통합 GPU/NPU 모니터링

All-SMI는 NVIDIA, AMD, Apple Silicon, Intel Gaudi, Google TPU 등 다양한 AI 가속기 하드웨어를 지원하는 시스템 가시성 도구입니다. 각 노드 및 섀시의 발열 정보 모니터링을 통해 이기종으로 구성된 데이터센터를 정밀하게 모니터링해보세요.

GitHub에서 보기 →

all-smi — Cluster Overview

Cluster Overview

Nodes200/200

Total RAM320.00TB

GPU Cores1600

Total VRAM220.31TB

Avg. Temp68°C

Total Power683.5kW

GPU Util

50.3%

GPU Mem

49.8%

Temp

68°C

Tabs node-0001 node-0002 node-0003 ... node-0200

GPU	Model	Util	VRAM	Temp	Power
GPU	H200 141	79.1%	84.2/141GB	78°C	511/700W
GPU	H200 141	28.8%	90.0/141GB	63°C	420/700W
GPU	H200 141	36.1%	61.6/141GB	63°C	385/700W
GPU	H200 141	66.2%	69.3/141GB	75°C	502/700W

GPU	Model	Util	VRAM	Temp	Power
GPU	H200 141	91.3%	120.4/141GB	82°C	645/700W
GPU	H200 141	45.6%	72.1/141GB	59°C	378/700W
GPU	H200 141	53.2%	95.8/141GB	67°C	462/700W
GPU	H200 141	12.4%	38.5/141GB	51°C	285/700W

h:Help q:Exit c:CPU →:Tabs s:Scroll

Key features

데이터센터 전체를 하나의 인터페이스로 관제

데이터센터 전체를 효율적으로 모니터링 할 수 있는 통합 솔루션

각 노드의 GPU, CPU, 메모리 및 섀시 발열 정보 모니터링을 통해 대규모 데이터센터의 정밀한 확인이 가능합니다. 총 노드 수, GPU 코어 수, 총 VRAM, 평균 온도, 총 전력 소비를 Cluster Overview로 한눈에 파악합니다.

통일된 메트릭으로 다양한 AI 가속기 플랫폼 동시 운용에 적합

NVIDIA, AMD, Apple Silicon, Intel Gaudi, Google TPU 등 9+종의 플랫폼을 단일 UI로 관리합니다. 벤더마다 다른 모니터링 도구를 따로 실행할 필요가 없어, 이기종 운영 복잡도를 해소합니다.

시스템에서 점유되고 있는 리소스 가시성 확보

256+개의 원격 시스템 동시 모니터링으로 GPU 활용률, CPU 부하, 시스템 메모리, 디스크 사용량, 온도 및 전력 소비량을 실시간으로 제공하며, 100+개의 Prometheus 메트릭을 통해 관측 스택 통합도 지원합니다.

엔터프라이즈급 안정적인 원격 모니터링 아키텍처

연결 풀링, 동시 연결 제한, 자동 재시도 및 TCP Keep-alive로 대규모 분산 환경에서도 안정적인 모니터링을 제공합니다.

상세한 프로세스 추적으로 리소스 낭비 원인 파악

GPU 메모리 사용량, CPU 사용률, 프로세스 상태를 추적하여 성능 병목 현상을 신속하게 진단합니다. 어떤 프로세스가 어떤 GPU를 얼마나 점유하고 있는지 PID 단위로 확인합니다.

빠른 문제 대응을 위한 직관적 인터랙티브 UI 제공

직관적인 색상 기반 가속기 및 섀시 상태 표시와 실시간 그래프를 통해 운영팀의 신속한 의사결정을 돕습니다.

Why All-SMI

All-SMI는 모든 종류의 AI 가속기를 봅니다

서로 다른 가속기를 위해 nvidia-smi, rocm-smi, hl-smi를 각각 실행하여 서로 다른 포맷의 출력을 비교하고, 노드를 각각 제어해야 하는 불편함을 해결합니다.

기능	nvidia-smi	rocm-smi	hl-smi	All-SMI
NVIDIA GPU	✓	—	—	✓
AMD GPU	—	✓	—	✓
Intel Gaudi	—	—	✓	✓
Google TPU	—	—	—	✓
국산 NPU (리벨리온, 퓨리오사)	—	—	—	✓
원격 클러스터 모니터링	—	—	—	✓ 256+ nodes
Prometheus 메트릭 내장	—	—	—	✓ 100+ metrics
CPU / 메모리 / 섀시 통합	—	—	—	✓
프로세스별 GPU 점유 추적	✓ NVIDIA only	✓ AMD only	—	✓ All accelerators
색상 코딩 인터랙티브 UI	—	—	—	✓

Supported accelerators

다양한 AI 가속기 하드웨어 지원

GPU, NPU, TPU를 가리지 않고 새로운 AI 반도체가 등장하면 All-SMI의 지원도 확대됩니다.

GPU

B200 · H200 · H100 · A100 · V100 · Jetson

GPU

MI300X · MI325X · Radeon Instinct

NPU

Gaudi 1 · Gaudi 2 · Gaudi 3 · PCIe · OAM · UBB

TPU

v2 · v3 · v4 · v5e · v5p · v6 · v7 (Ironwood)

Silicon

M1 · M2 · M3 · M4 · M5

NPU

Grayskull · Wormhole · Blackhole

NPU

ATOM · ATOM+ · ATOM Max

NPU

Warboy · RNGD

and more

POSIX · OpenCL · SYCL …

Operating modes

세 가지 운영 모드

단일 노드 점검부터 대규모 클러스터 관제, 관측 스택 통합까지

MODE 01

Local

터미널 기반 실시간 모니터링. 로컬 시스템의 GPU, CPU, 메모리 상태를 즉시 확인합니다. 모든 가속기를 위한 nvidia-smi인 셈이죠.

$ all-smi

MODE 02

API

Prometheus 호환 메트릭 엔드포인트를 제공합니다. Grafana, Alertmanager 등 기존 관측 스택에 연결할 수 있습니다.

$ all-smi api --port 9100

MODE 03

View

원격 클러스터 대시보드. API 모드로 실행 중인 노드를 단일 화면에서 확인할 수 있습니다.

$ all-smi view node1,node2,...

Quick Start

설치는 한 줄

macOS, Linux, Windows 모두 지원합니다. Homebrew, pip, APT, Cargo, 또는 바이너리 다운로드 중 편한 방법을 선택하세요.

Rust crate로도 제공되어, 커스텀 모니터링 애플리케이션 빌드에 라이브러리로 활용할 수 있습니다.

Installation

# macOS / Linux (Homebrew) $ brew install lablup/tap/all-smi # pip (PyPI) $ pip install all-smi # Ubuntu (APT) $ sudo add-apt-repository ppa:lablup/all-smi $ sudo apt install all-smi # Cargo (Rust) $ cargo install all-smi # 실행 $ all-smi

Enterprise Products

All-SMI를 사용하는 래블업 엔터프라이즈 제품

오픈소스 All-SMI는 래블업의 상용 제품에 내장되어, 데스크톱부터 데이터센터까지 일관된 가속기 가시성을 제공하고 있습니다.

DESKTOP

Backend.AI:GO

데스크톱 및 AI PC를 위한 경량 AI 플랫폼. All-SMI의 로컬 모니터링 엔진을 기반으로, 개인 워크스테이션의 GPU/NPU 상태를 실시간으로 확인합니다.

All-SMI 기반 로컬 가속기 모니터링
NVIDIA, AMD, Apple Silicon 실시간 상태
GPU 활용률, 온도, 메모리 대시보드
프로세스별 GPU 점유 추적
무료 배포

DATA CENTER

Backend.AI 모니터링 대시보드

Backend.AI의 웹 기반 통합 모니터링 대시보드. All-SMI의 메트릭 수집 엔진과 Prometheus 연동을 기반으로, 클러스터 전체의 가속기 상태를 시각화합니다.

All-SMI + Prometheus 기반 메트릭 파이프라인
이기종 가속기 통합 클러스터 대시보드
노드별 / GPU별 활용률, 온도, 전력 시각화
Grafana 연동 커스텀 대시보드
이상 징후 알림 및 히스토리 추적

모든 AI 가속기를 하나의 인터페이스로

모니터링은 All-SMI로 충분합니다. 운영까지 필요하다면 Backend.AI가 있습니다.

GitHub에서 설치 →