엔터프라이즈 AI 인프라를 위한 통합 GPU/NPU 모니터링
All-SMI는 NVIDIA, AMD, Apple Silicon, Intel Gaudi, Google TPU 등 다양한 AI 가속기 하드웨어를 지원하는 시스템 가시성 도구입니다. 각 노드 및 섀시의 발열 정보 모니터링을 통해 이기종으로 구성된 데이터센터를 정밀하게 모니터링해보세요.
| GPU | Model | Util | VRAM | Temp | Power |
|---|---|---|---|---|---|
| GPU | H200 141 | 79.1% | 84.2/141GB | 78°C | 511/700W |
| GPU | H200 141 | 28.8% | 90.0/141GB | 63°C | 420/700W |
| GPU | H200 141 | 36.1% | 61.6/141GB | 63°C | 385/700W |
| GPU | H200 141 | 66.2% | 69.3/141GB | 75°C | 502/700W |
| GPU | Model | Util | VRAM | Temp | Power |
|---|---|---|---|---|---|
| GPU | H200 141 | 91.3% | 120.4/141GB | 82°C | 645/700W |
| GPU | H200 141 | 45.6% | 72.1/141GB | 59°C | 378/700W |
| GPU | H200 141 | 53.2% | 95.8/141GB | 67°C | 462/700W |
| GPU | H200 141 | 12.4% | 38.5/141GB | 51°C | 285/700W |
Key features
데이터센터 전체를 하나의 인터페이스로 관제
데이터센터 전체를 효율적으로 모니터링 할 수 있는 통합 솔루션
각 노드의 GPU, CPU, 메모리 및 섀시 발열 정보 모니터링을 통해 대규모 데이터센터의 정밀한 확인이 가능합니다. 총 노드 수, GPU 코어 수, 총 VRAM, 평균 온도, 총 전력 소비를 Cluster Overview로 한눈에 파악합니다.
통일된 메트릭으로 다양한 AI 가속기 플랫폼 동시 운용에 적합
NVIDIA, AMD, Apple Silicon, Intel Gaudi, Google TPU 등 9+종의 플랫폼을 단일 UI로 관리합니다. 벤더마다 다른 모니터링 도구를 따로 실행할 필요가 없어, 이기종 운영 복잡도를 해소합니다.
시스템에서 점유되고 있는 리소스 가시성 확보
256+개의 원격 시스템 동시 모니터링으로 GPU 활용률, CPU 부하, 시스템 메모리, 디스크 사용량, 온도 및 전력 소비량을 실시간으로 제공하며, 100+개의 Prometheus 메트릭을 통해 관측 스택 통합도 지원합니다.
엔터프라이즈급 안정적인 원격 모니터링 아키텍처
연결 풀링, 동시 연결 제한, 자동 재시도 및 TCP Keep-alive로 대규모 분산 환경에서도 안정적인 모니터링을 제공합니다.
상세한 프로세스 추적으로 리소스 낭비 원인 파악
GPU 메모리 사용량, CPU 사용률, 프로세스 상태를 추적하여 성능 병목 현상을 신속하게 진단합니다. 어떤 프로세스가 어떤 GPU를 얼마나 점유하고 있는지 PID 단위로 확인합니다.
빠른 문제 대응을 위한 직관적 인터랙티브 UI 제공
직관적인 색상 기반 가속기 및 섀시 상태 표시와 실시간 그래프를 통해 운영팀의 신속한 의사결정을 돕습니다.
Why All-SMI
All-SMI는 모든 종류의 AI 가속기를 봅니다
서로 다른 가속기를 위해 nvidia-smi, rocm-smi, hl-smi를 각각 실행하여 서로 다른 포맷의 출력을 비교하고, 노드를 각각 제어해야 하는 불편함을 해결합니다.
| 기능 | nvidia-smi | rocm-smi | hl-smi | All-SMI |
|---|---|---|---|---|
| NVIDIA GPU | ✓ | — | — | ✓ |
| AMD GPU | — | ✓ | — | ✓ |
| Intel Gaudi | — | — | ✓ | ✓ |
| Google TPU | — | — | — | ✓ |
| 국산 NPU (리벨리온, 퓨리오사) | — | — | — | ✓ |
| 원격 클러스터 모니터링 | — | — | — | ✓ 256+ nodes |
| Prometheus 메트릭 내장 | — | — | — | ✓ 100+ metrics |
| CPU / 메모리 / 섀시 통합 | — | — | — | ✓ |
| 프로세스별 GPU 점유 추적 | ✓ NVIDIA only | ✓ AMD only | — | ✓ All accelerators |
| 색상 코딩 인터랙티브 UI | — | — | — | ✓ |
Supported accelerators
다양한 AI 가속기 하드웨어 지원
GPU, NPU, TPU를 가리지 않고 새로운 AI 반도체가 등장하면 All-SMI의 지원도 확대됩니다.
Operating modes
세 가지 운영 모드
단일 노드 점검부터 대규모 클러스터 관제, 관측 스택 통합까지
Local
터미널 기반 실시간 모니터링. 로컬 시스템의 GPU, CPU, 메모리 상태를 즉시 확인합니다. 모든 가속기를 위한 nvidia-smi인 셈이죠.
API
Prometheus 호환 메트릭 엔드포인트를 제공합니다. Grafana, Alertmanager 등 기존 관측 스택에 연결할 수 있습니다.
View
원격 클러스터 대시보드. API 모드로 실행 중인 노드를 단일 화면에서 확인할 수 있습니다.
Quick Start
설치는 한 줄
macOS, Linux, Windows 모두 지원합니다. Homebrew, pip, APT, Cargo, 또는 바이너리 다운로드 중 편한 방법을 선택하세요.
Rust crate로도 제공되어, 커스텀 모니터링 애플리케이션 빌드에 라이브러리로 활용할 수 있습니다.
Enterprise Products
All-SMI를 사용하는 래블업 엔터프라이즈 제품
오픈소스 All-SMI는 래블업의 상용 제품에 내장되어, 데스크톱부터 데이터센터까지 일관된 가속기 가시성을 제공하고 있습니다.
Backend.AI:GO
데스크톱 및 AI PC를 위한 경량 AI 플랫폼. All-SMI의 로컬 모니터링 엔진을 기반으로, 개인 워크스테이션의 GPU/NPU 상태를 실시간으로 확인합니다.
- All-SMI 기반 로컬 가속기 모니터링
- NVIDIA, AMD, Apple Silicon 실시간 상태
- GPU 활용률, 온도, 메모리 대시보드
- 프로세스별 GPU 점유 추적
- 무료 배포
Backend.AI 모니터링 대시보드
Backend.AI의 웹 기반 통합 모니터링 대시보드. All-SMI의 메트릭 수집 엔진과 Prometheus 연동을 기반으로, 클러스터 전체의 가속기 상태를 시각화합니다.
- All-SMI + Prometheus 기반 메트릭 파이프라인
- 이기종 가속기 통합 클러스터 대시보드
- 노드별 / GPU별 활용률, 온도, 전력 시각화
- Grafana 연동 커스텀 대시보드
- 이상 징후 알림 및 히스토리 추적
모든 AI 가속기를 하나의 인터페이스로
모니터링은 All-SMI로 충분합니다. 운영까지 필요하다면 Backend.AI가 있습니다.