출시
Backend.AI의 신규 업데이트를 소개합니다.
Backend.AI FastTrack 주요 업데이트 (2025년 9월 ~ 12월)
25.13.0 (2025-09-30)부터 25.18.0 (2026-01-07)까지 Backend.AI FastTrack 3에 반영된 주요 변경사항을 정리합니다.
릴리스 정책 변경 안내
2025년부터 Backend.AI FastTrack에도 Backend.AI와 동일한 릴리스 정책이 적용됩니다. 장기 지원(LTS) 버전은 매년 1분기와 3분기 말에 출시되며, 안정성에 중점을 두고 해당 연도 동안 유지보수와 버그 수정이 제공됩니다. 새로운 기능과 개선 사항은 별도의 릴리스로 출시되어 LTS 버전의 안정성을 유지하면서도 플랫폼의 지속적인 발전을 도모할 예정입니다. 25.18 버전 이후 Backend.AI 블로그에는 향후 발행되는 LTS 버전에 해당하는 변경사항이 업로드됩니다.
1. 파이프라인 워크플로우 기능 강화
1.1. 승인 태스크(Approval Task) 지원
파이프라인 워크플로우에 승인 태스크가 추가되었습니다. 담당자 혹은 관리자의 승인이 필요한 태스크의 경우 템플릿 화면에서 승인 단계가 포함된 흐름을 구성할 수 있습니다. 예를 들어, 모델을 학습하거나 배포하는 과정에서 불필요한 자원이 사용되지 않도록 워크플로우 중간에 사람이 개입할 수 있습니다.
대시보드 페이지의 상단 '파이프라인 작업' 카드에서 '승인 대기 중' 항목의 숫자를 확인할 수 있습니다. 또한, '최근 파이프라인 작업' 카드 안의 '상태' 탭에서도 '승인 대기 중' 을 비롯한 실행 상태를 실시간으로 확인할 수 있습니다.
1.2. 자동 재시도 전략(Auto-retry Strategy)
실패한 태스크는 설정된 횟수만큼 자동으로 재시도되며, 태스크 이름 옆 숫자 배지와 함께 재시도 상황이 표시됩니다.
1.3. 모델 스토리지 자동 마운트
파이프라인 실행 시 모델 스토리지를 모든 하위 태스크에 자동으로 마운트할 수 있어 사용자 편의성이 증대되었습니다.
1.4. 우선순위 제어 통합
파이프라인 작업의 우선순위 제어가 PipelineJob 레벨로 통합되어 파이프라인 작업의 우선 순위를 일관되게 관리할 수 있습니다.
파이프라인을 실행할 때 파이프라인의 우선순위를 설정할 수 있습니다. (범위: 0~100, 기본값 10)
작업 화면에서 우선순위를 수정할 수 있으며, 수정 후 곧바로 스케줄러에 반영됩니다.
현재 작업의 우선순위를 상단 정보 패널에서 확인할 수 있습니다.
2. 모델 서빙 기능 개선
2.1. 임시(Ephemeral) 모델 서빙
벤치마킹을 위한 임시 모델 서빙 태스크 기능이 추가되었습니다. 모델 서빙 태스크 생성 시 고급 설정에서 '임시 모델 서비스로 실행' 체크박스를 선택하여 활성화할 수 있으며, 태스크 인스턴스 오류 발생 시 임시 배포가 자동으로 종료되어 리소스 낭비를 방지할 수 있습니다.
임시 서빙 태스크 종료 후 연결된 후처리 태스크들이 자동으로 취소된 모습입니다.
2.2. 아키텍처 옵션 지원
FastTrack의 기존 버전에서는 세션 구성 시 실행 환경의 버전만 선택할 수 있었지만, 25.17 버전부터는 서비스 및 세션 생성 시 architecture 옵션을 지정할 수 있게 되었습니다. 이를 통해 다양한 하드웨어 아키텍처에 맞는 실험환경을 구축할 수 있습니다.
| 기존 세션 구성 화면 (Before) | 아키텍처 선택 드롭다운 (After) |
|---|---|
![]() | ![]() |
| 버전 선택만 가능하고 아키텍처를 별도로 지정할 수 없었습니다. | '자동' 또는 특정 아키텍처(x86_64 등)를 선택할 수 있습니다. 멀티 아키텍처를 지원하는 이미지의 경우, 배포 환경에 맞는 아키텍처를 명시적으로 지정할 수 있습니다. |
2.3. 서비스 배포 안정성 향상
모델 배포 롤아웃 전략이 복원되었고, out-of-band로 삭제된 모델 배포에 대한 조정(reconcile) 기능이 추가되었습니다. 또한 서빙 태스크 배포가 healthy 상태에 도달할 때까지 대기하는 기능이 구현되었습니다.
3. 리소스 프리셋 기능
리소스 프리셋 지원이 추가되어 사전 정의된 리소스 구성을 손쉽게 선택할 수 있습니다. 시스템 제약 조건과 호환되지 않는 리소스 프리셋은 자동으로 비활성화되며, 가속기 리소스 제한을 준수하는 프리셋만 표시됩니다.
표 1: 리소스 프리셋 관련 개선사항
| 기능 | 설명 |
|---|---|
| 프리셋 선택 | 사전 정의된 리소스 구성 선택 가능 |
| 호환성 검사 | 시스템 제약 조건에 맞지 않는 프리셋 자동 비활성화 |
| 가속기 제한 준수 | 가속기 리소스 제한에 맞는 프리셋만 표시 |
4. 사용자 경험(UX) 개선
4.1. 글로벌 에러 바운더리
오류 발생 시 화면에서 에러가 발생하는 영역을 세분화하여 사용자 경험을 향상하였습니다. 25.18 업데이트를 통해 React 애플리케이션에 글로벌 ErrorBoundary가 도입되었습니다. 오류가 발생해도 사이드바와 헤더는 그대로 유지되며, 해당 영역에서만 오류 메시지를 표시합니다. 사용자는 '다시 시도' 버튼을 누르거나 다른 메뉴로 이동하여 작업을 계속할 수 있습니다.
| 기존 오류 발생 화면 (Before) | ErrorBoundary 적용 후 오류 화면 (After) |
|---|---|
![]() | ![]() |
| 전체 페이지가 오류 메시지로 대체되어 다른 메뉴로 이동할 수 없었습니다. | 오류가 발생해도 내비게이션이 유지되어 다른 메뉴로 이동하거나 다시 시도할 수 있습니다. |
4.2. SSO 사용자 관리
현재 SSO 사용자를 표시하고 계정 전환을 허용하는 기능이 추가되었습니다.
| 기존 로그인 화면 (Before) | SSO 계정 전환 기능이 추가된 로그인 화면 (After) |
|---|---|
![]() | ![]() |
| 기본 로그인 버튼만 표시되어 계정 정보를 확인할 수 없었습니다. | 현재 로그인된 계정이 표시되고, 다른 계정으로 전환할 수 있는 옵션이 제공됩니다. |
SSO로 로그인한 사용자는 현재 연결된 계정 정보가 표시되며, '다른 계정으로 로그인하기' 옵션을 통해 손쉽게 계정을 전환할 수 있습니다.
4.3. 고급 옵션 UI 재설계
고급 옵션 접기(collapse) 컴포넌트가 재설계되었습니다. 특히 DirectoryTree 컴포넌트를 활용하여 태스크별 마운트 경로가 트리 구조로 표시됩니다.
파이프라인 및 태스크의 폴더 마운트 경로가 트리 구조로 직관적으로 표시됩니다. 또한 파이프라인 및 태스크 상태 태그 스타일이 적용된 것을 확인할 수 있습니다.
4.4. 다국어 지원
파이프라인 작업 및 태스크 인스턴스의 상태와 결과 태그가 현지화되었으며, 컨테이너 로그 모달을 포함한 다양한 UI 요소에 번역이 추가되었습니다.
5. 프롬프트 관리
프롬프트 관리 기능이 추가되어 AI 모델에 전달할 프롬프트를 체계적으로 관리할 수 있습니다. 프롬프트 목록에서 제목, 내용, 태그를 확인할 수 있으며, 편집 패널에서 프롬프트 내용을 수정하고 태그를 추가하여 분류할 수 있습니다.
6. 파이프라인 CLI 도구
파이프라인 관리를 위한 포괄적인 CLI 도구가 구현되었습니다. 이를 통해 터미널에서 직접 파이프라인을 생성, 실행, 관리할 수 있으며, 자동화 스크립트 작성이 더욱 용이해졌습니다. 아래는 python -m ai.backend.cli fasttrack pipeline list 명령으로 파이프라인 목록을 조회하는 예시입니다.
7. 인증 및 보안
7.1. Keypair 서명 인증
Backend.AI keypair 서명 인증이 지원됩니다. 기존 세션 기반 인증 외에 보다 안전한 인증 방식을 선택할 수 있습니다.
7.2. 헬스체크 엔드포인트 표준화
헬스체크 엔드포인트가 표준화되어 모니터링 및 운영 관리가 더욱 편리해졌습니다. 헬스체크 API를 호출하면 서비스 상태, 버전, 컴포넌트명, 가동 시간 등의 정보를 JSON 형식으로 확인할 수 있습니다.
8. 대시보드 페이지
새로운 대시보드 페이지가 추가되어 전체 시스템 상태를 한눈에 파악할 수 있습니다. 리소스 사용량, 실행 중인 세션, 승인 대기 작업 등의 정보를 통합적으로 확인할 수 있습니다.
9. 가속기 지원 확대
fractional GPU 슬롯 표시
가벼운 작업에 리소스를 효율적으로 활용할 수 있도록 fractional 가속기 슬롯에 'fractional' 레이블이 다시 표시되어 리소스 할당 상태를 명확하게 파악할 수 있습니다.
10. 기술적 개선사항
10.1. React 19 업그레이드
React 19로 업그레이드되어 최신 React 기능을 활용할 수 있습니다. Ant Design v5와의 호환성도 확보되었습니다.
10.2. lodash에서 es-toolkit으로 마이그레이션
lodash 라이브러리가 es-toolkit으로 마이그레이션되어 번들 크기가 감소하고 성능이 향상되었습니다. es-toolkit은 더 가볍고 최신 JavaScript 표준에 최적화되어 있어 앱 로딩 속도가 빨라집니다.
10.3. Python 3.13.7 업그레이드
백엔드 Python 버전이 3.13.7로 업그레이드되어 최신 Python 기능과 성능 개선 사항을 활용할 수 있습니다.
10.4. autopilot 서비스
auto-terminate-controller 서비스가 autopilot으로 리네임되어 더욱 직관적인 서비스 구성이 가능해졌습니다.
작성자: 강정석, 송영숙





