엔터프라이즈 AI 인프라를 위한 통합 GPU/NPU 모니터링

All-SMI는 NVIDIA, AMD, Apple Silicon, Intel Gaudi, Google TPU 등 다양한 AI 가속기 하드웨어를 지원하는 시스템 가시성 도구입니다. 각 노드 및 섀시의 발열 정보 모니터링을 통해 이기종으로 구성된 데이터센터를 정밀하게 모니터링해보세요.

all-smi — Cluster Overview
Cluster Overview
Nodes200/200
Total RAM320.00TB
GPU Cores1600
Total VRAM220.31TB
Avg. Temp68°C
Total Power683.5kW
GPU Util
50.3%
GPU Mem
49.8%
Temp
68°C
Tabs node-0001 node-0002 node-0003 ... node-0200
GPUModelUtilVRAMTempPower
GPUH200 14179.1%84.2/141GB78°C511/700W
GPUH200 14128.8%90.0/141GB63°C420/700W
GPUH200 14136.1%61.6/141GB63°C385/700W
GPUH200 14166.2%69.3/141GB75°C502/700W
GPUModelUtilVRAMTempPower
GPUH200 14191.3%120.4/141GB82°C645/700W
GPUH200 14145.6%72.1/141GB59°C378/700W
GPUH200 14153.2%95.8/141GB67°C462/700W
GPUH200 14112.4%38.5/141GB51°C285/700W
h:Help q:Exit c:CPU →:Tabs s:Scroll

Key features

데이터센터 전체를 하나의 인터페이스로 관제

데이터센터 전체를 효율적으로 모니터링 할 수 있는 통합 솔루션

각 노드의 GPU, CPU, 메모리 및 섀시 발열 정보 모니터링을 통해 대규모 데이터센터의 정밀한 확인이 가능합니다. 총 노드 수, GPU 코어 수, 총 VRAM, 평균 온도, 총 전력 소비를 Cluster Overview로 한눈에 파악합니다.

통일된 메트릭으로 다양한 AI 가속기 플랫폼 동시 운용에 적합

NVIDIA, AMD, Apple Silicon, Intel Gaudi, Google TPU 등 9+종의 플랫폼을 단일 UI로 관리합니다. 벤더마다 다른 모니터링 도구를 따로 실행할 필요가 없어, 이기종 운영 복잡도를 해소합니다.

시스템에서 점유되고 있는 리소스 가시성 확보

256+개의 원격 시스템 동시 모니터링으로 GPU 활용률, CPU 부하, 시스템 메모리, 디스크 사용량, 온도 및 전력 소비량을 실시간으로 제공하며, 100+개의 Prometheus 메트릭을 통해 관측 스택 통합도 지원합니다.

엔터프라이즈급 안정적인 원격 모니터링 아키텍처

연결 풀링, 동시 연결 제한, 자동 재시도 및 TCP Keep-alive로 대규모 분산 환경에서도 안정적인 모니터링을 제공합니다.

상세한 프로세스 추적으로 리소스 낭비 원인 파악

GPU 메모리 사용량, CPU 사용률, 프로세스 상태를 추적하여 성능 병목 현상을 신속하게 진단합니다. 어떤 프로세스가 어떤 GPU를 얼마나 점유하고 있는지 PID 단위로 확인합니다.

빠른 문제 대응을 위한 직관적 인터랙티브 UI 제공

직관적인 색상 기반 가속기 및 섀시 상태 표시와 실시간 그래프를 통해 운영팀의 신속한 의사결정을 돕습니다.

Why All-SMI

All-SMI는 모든 종류의 AI 가속기를 봅니다

서로 다른 가속기를 위해 nvidia-smi, rocm-smi, hl-smi를 각각 실행하여 서로 다른 포맷의 출력을 비교하고, 노드를 각각 제어해야 하는 불편함을 해결합니다.

기능nvidia-smirocm-smihl-smiAll-SMI
NVIDIA GPU
AMD GPU
Intel Gaudi
Google TPU
국산 NPU (리벨리온, 퓨리오사)
원격 클러스터 모니터링✓ 256+ nodes
Prometheus 메트릭 내장✓ 100+ metrics
CPU / 메모리 / 섀시 통합
프로세스별 GPU 점유 추적✓ NVIDIA only✓ AMD only✓ All accelerators
색상 코딩 인터랙티브 UI

Supported accelerators

다양한 AI 가속기 하드웨어 지원

GPU, NPU, TPU를 가리지 않고 새로운 AI 반도체가 등장하면 All-SMI의 지원도 확대됩니다.

NVIDIA
GPU
B200 · H200 · H100 · A100 · V100 · Jetson
AMD
GPU
MI300X · MI325X · Radeon Instinct
Intel
NPU
Gaudi 1 · Gaudi 2 · Gaudi 3 · PCIe · OAM · UBB
Google
TPU
v2 · v3 · v4 · v5e · v5p · v6 · v7 (Ironwood)
Apple
Silicon
M1 · M2 · M3 · M4 · M5
Tenstorrent
NPU
Grayskull · Wormhole · Blackhole
Rebellions
NPU
ATOM · ATOM+ · ATOM Max
FuriosaAI
NPU
Warboy · RNGD
and more
POSIX · OpenCL · SYCL …

Operating modes

세 가지 운영 모드

단일 노드 점검부터 대규모 클러스터 관제, 관측 스택 통합까지

MODE 01

Local

터미널 기반 실시간 모니터링. 로컬 시스템의 GPU, CPU, 메모리 상태를 즉시 확인합니다. 모든 가속기를 위한 nvidia-smi인 셈이죠.

$ all-smi
MODE 02

API

Prometheus 호환 메트릭 엔드포인트를 제공합니다. Grafana, Alertmanager 등 기존 관측 스택에 연결할 수 있습니다.

$ all-smi api --port 9100
MODE 03

View

원격 클러스터 대시보드. API 모드로 실행 중인 노드를 단일 화면에서 확인할 수 있습니다.

$ all-smi view node1,node2,...

Quick Start

설치는 한 줄

macOS, Linux, Windows 모두 지원합니다. Homebrew, pip, APT, Cargo, 또는 바이너리 다운로드 중 편한 방법을 선택하세요.

Rust crate로도 제공되어, 커스텀 모니터링 애플리케이션 빌드에 라이브러리로 활용할 수 있습니다.

Installation
# macOS / Linux (Homebrew) $ brew install lablup/tap/all-smi # pip (PyPI) $ pip install all-smi # Ubuntu (APT) $ sudo add-apt-repository ppa:lablup/all-smi $ sudo apt install all-smi # Cargo (Rust) $ cargo install all-smi # 실행 $ all-smi

Enterprise Products

All-SMI를 사용하는 래블업 엔터프라이즈 제품

오픈소스 All-SMI는 래블업의 상용 제품에 내장되어, 데스크톱부터 데이터센터까지 일관된 가속기 가시성을 제공하고 있습니다.

DESKTOP

Backend.AI:GO

데스크톱 및 AI PC를 위한 경량 AI 플랫폼. All-SMI의 로컬 모니터링 엔진을 기반으로, 개인 워크스테이션의 GPU/NPU 상태를 실시간으로 확인합니다.

  • All-SMI 기반 로컬 가속기 모니터링
  • NVIDIA, AMD, Apple Silicon 실시간 상태
  • GPU 활용률, 온도, 메모리 대시보드
  • 프로세스별 GPU 점유 추적
  • 무료 배포
DATA CENTER

Backend.AI 모니터링 대시보드

Backend.AI의 웹 기반 통합 모니터링 대시보드. All-SMI의 메트릭 수집 엔진과 Prometheus 연동을 기반으로, 클러스터 전체의 가속기 상태를 시각화합니다.

  • All-SMI + Prometheus 기반 메트릭 파이프라인
  • 이기종 가속기 통합 클러스터 대시보드
  • 노드별 / GPU별 활용률, 온도, 전력 시각화
  • Grafana 연동 커스텀 대시보드
  • 이상 징후 알림 및 히스토리 추적

모든 AI 가속기를 하나의 인터페이스로

모니터링은 All-SMI로 충분합니다. 운영까지 필요하다면 Backend.AI가 있습니다.

GitHub에서 설치

도움이 필요하신가요?

내용을 작성해 주시면 곧 연락 드리겠습니다.

문의하기

본사 및 HPC 연구소

KR Office: 서울특별시 강남구 선릉로 577 CR타워 8층 US Office: 3003 N First st, Suite 221, San Jose, CA 95134

© Lablup Inc. All rights reserved.

개인정보를 소중히 여깁니다

사용자 경험 향상, 사이트 트래픽 분석 및 방문자 동향 파악을 위해 쿠키를 사용합니다. "모두 수락"을 클릭하면 쿠키 사용에 동의하는 것입니다. 자세히 보기