출시
Backend.AI의 신규 업데이트를 소개합니다.
2025년 하반기의 장기 지원(LTS) 버전, Backend.AI 25.15가 출시되었습니다. 이번 업데이트는 사용자 경험과 시스템 성능 전반에 걸친 대대적인 최적화를 포함하고 있으며, 대규모 AI 모델 구축, 학습 및 배포를 위한 플랫폼 안정성이 더욱 강화되었습니다.
릴리스 정책 변경 안내
2025년부터 Backend.AI의 새로운 릴리스 정책이 적용됩니다. 장기 지원(LTS) 버전은 매년 1분기와 3분기 말에 출시되며, 안정성에 중점을 두고 해당 연도 동안 유지보수와 버그 수정이 제공됩니다. 새로운 기능과 개선 사항은 별도의 릴리스로 출시되어 LTS 버전의 안정성을 유지하면서도 플랫폼의 지속적인 발전을 도모할 예정입니다.
1. 폴더 탐색기(VFolder) 개편을 통한 사용자 경험 향상
Backend.AI 25.15 버전에서는 폴더 탐색기(VFolder)의 성능과 편의성이 크게 개선되었습니다. 파일 업로드 속도가 대폭 향상되고, 폴더 단위 업로드와 병렬 처리, 중복 체크 자동화 등 다양한 개선을 통해 한층 더 직관적이고 빠른 파일 관리 환경을 제공합니다.
1.1. 성능 개선
단일 파일 업로드 시, 파일 크기에 따라 자동으로 최적의 Chunk 크기를 동적으로 조정하도록 개선되었습니다. 작은 파일은 작은 단위로, 큰 파일은 큰 단위로 업로드하도록 조정되어 파일 크기에 따른 전송 효율이 극대화됩니다.
<표 1> 성능 개선 비교표
| 테스트 항목 | 이전 버전 | 현재 버전(NEO) | 개선율 |
|---|---|---|---|
| JS 프로젝트 폴더 업로드 소요 시간 (160개 파일, 35MB, 로컬 테스트 기준) | 89초 | 8초 | 약 11배 향상 |
| 단일 파일 업로드 소요 시간 (450MB, dogbowl 환경) | 24초 | 17초 | 약 29% 향상 |
병렬 처리 및 중복 체크 자동화 이전에는 여러 파일을 하나씩 순차적으로 검증했지만, 이제는 여러 파일을 병렬로 업로드할 수 있습니다. 또한 업로드 시 동일 이름의 파일이 존재하는지 자동으로 중복 체크가 진행되어 불필요한 대기 시간 없이 빠른 업로드가 가능합니다.
폴더 단위 업로드 지원 이제 개별 파일 이외 폴더 단위 그대로를 업로드할 수 있습니다. 폴더의 드래그 앤 드롭 (Drag-and-drop)을 지원하여 사용자는 GUI 상에서 간편하게 폴더를 드래그하여 업로드하는 기능도 지원합니다.
1.2. 사용자 편의성 개선
새로운 폴더 탐색기에서는 파일/폴더명을 즉시 편집할 수 있고, 업로드 진행 상태를 별도의 알림(Notification)으로 분리하여 업로드 중에도 다른 작업을 동시에 진행할 수 있습니다.
<표 2> 사용 편의성 개선 항목
| 기능 | 이전 버전 | 현재 버전(NEO) |
|---|---|---|
| 파일 업로드 팝업 창을 닫은 후에도 메인 화면에서 업로드 진행 바와 남은 파일 개수를 계속 확인 가능 | X | ○ |
| 남은 파일 수 표시 | X | ○ |
2. NEO Session 기본 적용 및 세션 관리 개선
NEO Session 기본 적용
NEO Session은 기존 대비 훨씬 빠른 로딩 속도와 직관적인 화면 구성을 제공하며, 원하는 세션을 쉽고 빠르게 찾을 수 있도록 필터링과 정렬 기능도 강화되었습니다. 또한 기본 설정으로는 핵심 정보만 제공하고, 추가적인 정보를 필요로 하는 사용자들은 원하는 항목을 선택, 세션 목록의 항목을 확장할 수 있도록 개선되었습니다.
세션 런처 신규 기능 도입
Backend.AI 25.15의 세션 런처에 다양한 기능들이 추가되었습니다.
- Shared memory 독립 설정:
allowCustomResourceAllocation이 비활성화되어도 Shared Memory는 독립적으로 조정할 수 있도록 변경되었습니다. - 세션 생성 후 UX 개선: 세션을 생성하면 목록이 즉시 갱신되고 상태 변경이 Notification에 표시됩니다. 해당 Notification 화면의 액션 버튼을 통해 바로 생성한 세션을 조작할 수 있으며, App Launcher가 자동으로 열리던 동작이 대체됩니다.
- 자동 가속기 선택: 이미지의 supported accelerator 값에 따라 가속기 선택 여부가 자동으로 결정되며, 모든 가속기를 허용하는 경우 사용할 수 있는 와일드카드(*) 옵션을 지원합니다.
- 입력 정보 유지: 서비스 런처에서 페이지를 새로고침해도 입력한 정보값이 남아 있도록 수정했습니다. 반복 작업을 수행하는 경우에 유용하게 사용할 수 있습니다.
3. 강력해진 대시보드
대시보드(Dashboard)는 프로젝트와 리소스 그룹의 자원 사용량, 한도, 실행 중인 세션 상태를 한 화면에서 통합적으로 보여주는 종합 현황 페이지이며, Backend.AI 25.15 버전부터는 그 기능을 확장하여 제공합니다.
Backend.AI 25.15 버전부터 사용자는 대시보드를 구성하는 각 컴포넌트를 이동하고, 크기를 조절하여 원하는 크기와 위치에 배치할 수 있습니다. 이를 통해 자주 접근하는 정보를 더욱 쉽고 편리하게 확인할 수 있습니다.

새로이 추가된 '자원 그룹별 나의 자원' 카드를 통해 사용자는 자원 그룹으로 구성된 CPU, RAM, GPU 자원을 얼마나 사용 가능한지, 혹은 얼마나 사용 가능한지 확인할 수 있습니다. 여러 개의 자원 그룹이 생성되어 있고, 사용자가 해당 그룹에 접근 가능한 경우에는 드롭다운을 통해 다양한 자원 그룹별 통계를 나눠 볼 수 있습니다.
4. 스케줄러 페이지 도입
관리자 메뉴에 스케줄러 페이지가 추가됩니다. 스케줄러 페이지에서는 대기 중인 세션 목록과 함께 각 세션의 큐 위치 정보를 확인할 수 있습니다. 새로 마련된 이 페이지를 통해 사용자는 리소스 대기 상황을 투명하게 파악할 수 있습니다.
5. 자원 그룹 관리 경험 개선
새로 만들어진 스케줄러 페이디와 더불어 리소스 그룹에서의 스케줄러 옵션(Scheduler Options)을 추가 설정하는 기능이 도입되었습니다.
- 허용된 세션 타입 (Allowed session types): 사용자가 세션에서 허용할 특정 타입(Type)을 선택할 수 있습니다. 사용자의 설정에 따라 자원 그룹에서도 Interactive, Batch, Inference 중 특정 타입의 세션만 허용할 수 있습니다.
- 대기 세션 유휴 시간 (Pending timeout): PENDING 상태에 머무는 시간이 Pending timeout보다 긴 경우, 해당 세션을 취소할 수 있습니다. 무한히 PENDING 상태에 머무르는 세션을 방지하고자 할 때 기준 시간을 설정할 수 있으며, 0을 설정하면 Pending timeout이 적용되지 않습니다.
- 세션 생성 최대 재시도 횟수 (Retries to skip pending session): PENDING 세션을 건너뛸 때까지의 스케줄러 재시도 횟수를 선택할 수 있습니다. PENDING 세션이 무한히 지속되는 경우(Head-of-line blocking, HOL)를 방지하기 위해 도입된 옵션이며, 사용자의 별도 명시가 없는 경우에는 Etcd에 설정된 글로벌 값(num_retries_to_skip, 기본 3회)을 사용하도록 되어 있습니다. 관리자 권한이 있는 사용자의 경우 세션의 상세 내용을 확인하거나, 세션을 직접 종료할 수 있습니다.
<표 3> 일반 사용자와 어드민의 권한 비교
| 페이지 \ 역할 | 일반 사용자 | 어드민 |
|---|---|---|
| 시작 | O | O |
| 대시보드 (Dashboard) | O | O |
| 데이터 (Data) | O | O |
| 세션 (Sessions) | O | O |
| 모델 서빙 (Serving) | O | O |
| 가져오기 및 실행 (Import & Run) | O | O |
| 나의 실행 환경 (My Environments) | O | O |
| 채팅 (Chat) | O | O |
| 모델 서빙 (Serving) | O | O |
| Model Store | O | O |
| 자원 요약 (Agent Summary) | O | O |
| 통계 (Statistics) | O | O |
| 사용자 (Users)* | X | O |
| 실행 환경 (Environments)* | X | O |
| 스케줄러 (Scheduler)* | X | O |
| 자원 정책 (Resource Policy)* | X | O |
| 자원 (Resources)* | X | O |
| 환경 설정 (Configurations)* | X | O |
| 관리 (Maintenance)* | X | O |
| 정보 (Information)* | X | O |
* 표시된 항목은 어드민 전용 메뉴입니다.
6. 세션 상세 패널 개선
데이터 fetching 및 캐시 최적화를 통해 상세 페이지 로딩 속도를 대폭 개선하였습니다.
7. 기능 업데이트
- 설정 관리 시스템 개편: Manager, Agent, Webserver 등 주요 컴포넌트 전반에 Pydantic 기반 설정 구조가 도입되어 설정 검증과 관리가 체계화되었습니다. 또한 GraphQL ServiceConfig API와 CLI 설정 관리 도구가 추가되어 시스템 설정의 조회·변경이 한층 수월해졌습니다.
- 스케줄링 및 오케스트레이션 향상: 새로운 Sokovan 오케스트레이터와 분산 락 기반 스케줄링이 추가되어, 다중 노드 환경에서의 세션 일관성과 안정성이 강화되었습니다. 더불어 중단된 세션을 자동으로 정리하는 세션 스위핑 기능이 도입되어 운영 효율이 개선되었습니다.
- 모니터링 및 관측성(Observability) 개선: OpenTelemetry 통합을 통해 Backend.AI 전 구성요소에서 분산 추적이 가능해졌습니다. 또한 etcd 서비스 디스커버리, 이벤트 로그 시스템, 헬스 체크 엔드포인트가 추가되어 시스템 상태를 더욱 세밀하게 모니터링할 수 있습니다.
- Artifact & Reservoir 레지스트리 강화: AI 모델 및 데이터 자산 관리 기능이 업그레이드되었습니다. Artifact 레지스트리로 모델 리비전 관리가 가능해졌으며, HuggingFace 통합 레지스트리와 Reservoir 동기화 API가 추가되어 다양한 모델 저장소 간 협업이 더욱 용이해졌습니다.
- RBAC(역할 기반 접근 제어) 확장: 새로운 RBAC 데이터베이스 구조가 도입되어 사용자별·리소스별 세밀한 권한 관리가 가능합니다. 기존 VFolder 권한 체계도 RBAC 구조로 통합되어 일관된 보안 모델을 제공합니다.
- 모델 서비스 개선: AppProxy 기반 헬스 체크, Redis 기반 라우트 관리, service-definition.toml 지원 등 모델 서빙 인프라의 가용성과 유연성이 강화되었습니다. SDK 및 CLI에서는 runtime_variant 옵션을 통해 런타임 변형 설정도 지원합니다.
- 보안 및 성능 향상: PBKDF2-SHA3-256 패스워드 해싱, TOTP 기반 2단계 인증, RBAC 기반 VFolder 검증이 추가되어 보안 수준이 강화되었습니다. 또한 시작 지연 15% 감소, NUMA 인식 성능 최적화, 리소스 프리셋 캐시 적용으로 전반적인 응답 속도와 리소스 활용 효율이 향상되었습니다.
- 개발자 도구 업데이트: 새로운 all-smi GPU 모니터링 유틸리티, backend.ai events --wait 명령어, TRACE 로그 레벨이 추가되어 개발 및 운영 환경에서의 디버깅과 자동화가 더 쉬워졌습니다.
8. 기타 버그 수정 및 안정성 향상
세션 관리, 네트워크/Docker 작업, API 권한, 프록시 헬스 체크, 모델 서비스 토큰 처리 등 전반에 걸쳐 안정성이 개선되었으며, 연산 세션 폴더 마운트 버그가 수정되어 스토리지 프록시가 동작하지 않을 때도 관련 기능을 제외한 나머지 동작이 보장됩니다.
Backend.AI는 앞으로도 사용자 여러분의 AI 연구와 개발을 더욱 편리하고 안전하게 만들어 드리겠습니다.
Make your AI accessible with Backend.AI!
Backend.AI 25.15 (LTS)에 대한 전체 릴리스 내역은 릴리스 히스토리 페이지에서 확인하실 수 있습니다.
작성자: 허진호, 송영숙, 김수진, 김혁진