출시

Backend.AI의 신규 업데이트를 소개합니다.

Jan 5, 2026

출시

Backend.AI FastTrack 3 25.18 업데이트 소식

  • 래블업 주식회사

    래블업 주식회사

    래블업 주식회사

Jan 5, 2026

출시

Backend.AI FastTrack 3 25.18 업데이트 소식

  • 래블업 주식회사

    래블업 주식회사

    래블업 주식회사

Backend.AI FastTrack 주요 업데이트 (2025년 9월 ~ 12월)

25.13.0 (2025-09-30)부터 25.18.0 (2026-01-07)까지 Backend.AI FastTrack 3에 반영된 주요 변경사항을 정리합니다.

릴리스 정책 변경 안내

2025년부터 Backend.AI FastTrack에도 Backend.AI와 동일한 릴리스 정책이 적용됩니다. 장기 지원(LTS) 버전은 매년 1분기와 3분기 말에 출시되며, 안정성에 중점을 두고 해당 연도 동안 유지보수와 버그 수정이 제공됩니다. 새로운 기능과 개선 사항은 별도의 릴리스로 출시되어 LTS 버전의 안정성을 유지하면서도 플랫폼의 지속적인 발전을 도모할 예정입니다. 25.18 버전 이후 Backend.AI 블로그에는 향후 발행되는 LTS 버전에 해당하는 변경사항이 업로드됩니다.

1. 파이프라인 워크플로우 기능 강화

1.1. 승인 태스크(Approval Task) 지원

pic-01-1-pipeline.png
<그림 1> 파이프라인 템플릿에서 승인 태스크 추가

파이프라인 워크플로우에 승인 태스크가 추가되었습니다. 담당자 혹은 관리자의 승인이 필요한 태스크의 경우 템플릿 화면에서 승인 단계가 포함된 흐름을 구성할 수 있습니다. 예를 들어, 모델을 학습하거나 배포하는 과정에서 불필요한 자원이 사용되지 않도록 워크플로우 중간에 사람이 개입할 수 있습니다.

pic-01-1-job.png
<그림 2> 파이프라인 작업 상세 화면 구성
선택한 파이프라인 작업의 상태, 소유자, 생성 시간, 태스크 흐름, 각 태스크의 실행 환경 및 자원 할당 정보를 하나의 화면 안에서 확인할 수 있습니다.
pic-01-1-dashboard.png
<그림 3> FastTrack 대시보드에서 파이프라인 작업 현황 확인

대시보드 페이지의 상단 '파이프라인 작업' 카드에서 '승인 대기 중' 항목의 숫자를 확인할 수 있습니다. 또한, '최근 파이프라인 작업' 카드 안의 '상태' 탭에서도 '승인 대기 중' 을 비롯한 실행 상태를 실시간으로 확인할 수 있습니다.

1.2. 자동 재시도 전략(Auto-retry Strategy)

pic-01-2-retry-task.png
<그림 4> 태스크 상세 옵션의 자동 재시도 설정 패널
실패한 태스크 인스턴스에 대한 자동 재시도 기능이 도입되었습니다. 재시도 횟수를 최대 999회까지 설정할 수 있어 일시적인 오류로 인한 파이프라인 실패를 방지할 수 있습니다. 태스크 인스턴스 상세 정보에서 재시도 횟수 배지를 통해 현재 상태를 확인할 수 있습니다.
pic-01-2-retry-history.png
<그림 5> 자동 재시도 이력 확인 화면
재시도된 실행 기록이 시간 순으로 표시되며 성공·실패 여부를 쉽게 확인할 수 있습니다.
pic-01-2-retry-job.png
<그림 6> 자동 재시도가 적용된 파이프라인 작업 상태

실패한 태스크는 설정된 횟수만큼 자동으로 재시도되며, 태스크 이름 옆 숫자 배지와 함께 재시도 상황이 표시됩니다.

1.3. 모델 스토리지 자동 마운트

파이프라인 실행 시 모델 스토리지를 모든 하위 태스크에 자동으로 마운트할 수 있어 사용자 편의성이 증대되었습니다.

pic-01-3-job-mount.png
<그림 7> 모델 스토리지 자동 마운트가 적용된 파이프라인 실행 예시
각 태스크가 동일한 모델 경로를 자동으로 공유하며 추가 설정 없이 후처리 작업이 가능합니다.
pic-01-3-task-log.png
<그림 8> 태스크 컨테이너 로그 확인 화면
스토리지 접근을 포함하여 실행 과정 전체 로그를 실시간으로 확인할 수 있습니다.
pic-01-3-task-setup.png
<그림 9> 태스크 실행 환경 및 자원 설정 화면
명령어, 환경 변수, 실행 환경, 자원 그룹 및 프리셋을 UI에서 바로 설정할 수 있습니다.

1.4. 우선순위 제어 통합

파이프라인 작업의 우선순위 제어가 PipelineJob 레벨로 통합되어 파이프라인 작업의 우선 순위를 일관되게 관리할 수 있습니다.

pic-01-4-priority.png]
<그림 10> 파이프라인 실행 시 우선순위 초기값 설정

파이프라인을 실행할 때 파이프라인의 우선순위를 설정할 수 있습니다. (범위: 0~100, 기본값 10)

pic-01-4-priority-job-update.png
<그림 11> 실행 중인 파이프라인 작업의 우선순위 변경

작업 화면에서 우선순위를 수정할 수 있으며, 수정 후 곧바로 스케줄러에 반영됩니다.

pic-01-4-priority-job.png
<그림 12> 파이프라인 작업 상세 화면에서 우선순위 확인

현재 작업의 우선순위를 상단 정보 패널에서 확인할 수 있습니다.

2. 모델 서빙 기능 개선

2.1. 임시(Ephemeral) 모델 서빙

벤치마킹을 위한 임시 모델 서빙 태스크 기능이 추가되었습니다. 모델 서빙 태스크 생성 시 고급 설정에서 '임시 모델 서비스로 실행' 체크박스를 선택하여 활성화할 수 있으며, 태스크 인스턴스 오류 발생 시 임시 배포가 자동으로 종료되어 리소스 낭비를 방지할 수 있습니다.

pic-02-1-ephemeral.png
<그림 13 > 모델 서빙 태스크의 임시 모드 설정 화면
고급 설정에서 '임시 모델 서비스로 실행' 옵션을 활성화할 수 있습니다. 임시 모드로 실행된 서빙 태스크는 작업 완료 또는 오류 발생 시 자동으로 종료되며, 태스크에 연결된 후처리 태스크들도 함께 취소되어 리소스가 회수됩니다.
pic-02-1-ephemeral-job.png
<그림 14 > 임시 모델 서빙이 완료된 파이프라인 작업 화면

임시 서빙 태스크 종료 후 연결된 후처리 태스크들이 자동으로 취소된 모습입니다.

2.2. 아키텍처 옵션 지원

FastTrack의 기존 버전에서는 세션 구성 시 실행 환경의 버전만 선택할 수 있었지만, 25.17 버전부터는 서비스 및 세션 생성 시 architecture 옵션을 지정할 수 있게 되었습니다. 이를 통해 다양한 하드웨어 아키텍처에 맞는 실험환경을 구축할 수 있습니다.

기존 세션 구성 화면 (Before)아키텍처 선택 드롭다운 (After)
기존 세션 구성 화면의 이미지 '버전' 선택 예시새로운 세션 구성 화면의 이미지 '아키텍처' 선택 예시
버전 선택만 가능하고 아키텍처를 별도로 지정할 수 없었습니다.'자동' 또는 특정 아키텍처(x86_64 등)를 선택할 수 있습니다. 멀티 아키텍처를 지원하는 이미지의 경우, 배포 환경에 맞는 아키텍처를 명시적으로 지정할 수 있습니다.

2.3. 서비스 배포 안정성 향상

모델 배포 롤아웃 전략이 복원되었고, out-of-band로 삭제된 모델 배포에 대한 조정(reconcile) 기능이 추가되었습니다. 또한 서빙 태스크 배포가 healthy 상태에 도달할 때까지 대기하는 기능이 구현되었습니다.

3. 리소스 프리셋 기능

리소스 프리셋 지원이 추가되어 사전 정의된 리소스 구성을 손쉽게 선택할 수 있습니다. 시스템 제약 조건과 호환되지 않는 리소스 프리셋은 자동으로 비활성화되며, 가속기 리소스 제한을 준수하는 프리셋만 표시됩니다.

pic-03-resource-preset.png
<그림 18 > 리소스 프리셋 선택 화면
사진과 같이 사용 가능한 프리셋은 일반 텍스트로, 시스템 제약 조건에 맞지 않는 프리셋은 회색으로 표시됩니다. 선택 불가능한 프리셋을 미리 구분해 표시하여 사용자가 실행 가능한 구성만 선택할 수 있습니다.

표 1: 리소스 프리셋 관련 개선사항

기능설명
프리셋 선택사전 정의된 리소스 구성 선택 가능
호환성 검사시스템 제약 조건에 맞지 않는 프리셋 자동 비활성화
가속기 제한 준수가속기 리소스 제한에 맞는 프리셋만 표시

4. 사용자 경험(UX) 개선

4.1. 글로벌 에러 바운더리

오류 발생 시 화면에서 에러가 발생하는 영역을 세분화하여 사용자 경험을 향상하였습니다. 25.18 업데이트를 통해 React 애플리케이션에 글로벌 ErrorBoundary가 도입되었습니다. 오류가 발생해도 사이드바와 헤더는 그대로 유지되며, 해당 영역에서만 오류 메시지를 표시합니다. 사용자는 '다시 시도' 버튼을 누르거나 다른 메뉴로 이동하여 작업을 계속할 수 있습니다.

기존 오류 발생 화면 (Before)ErrorBoundary 적용 후 오류 화면 (After)
기존 버전에서 오류 발생 시 전체 페이지가 다운되는 화면새 버전에서 오류 발생 시 레이아웃 및 네비게이션 유지하는 화면
전체 페이지가 오류 메시지로 대체되어 다른 메뉴로 이동할 수 없었습니다.오류가 발생해도 내비게이션이 유지되어 다른 메뉴로 이동하거나 다시 시도할 수 있습니다.

4.2. SSO 사용자 관리

현재 SSO 사용자를 표시하고 계정 전환을 허용하는 기능이 추가되었습니다.

기존 로그인 화면 (Before)SSO 계정 전환 기능이 추가된 로그인 화면 (After)
로그인 버튼만 존재하는 기존 로그인 화면현재 계정 정보가 나타나는 새로운
기본 로그인 버튼만 표시되어 계정 정보를 확인할 수 없었습니다.현재 로그인된 계정이 표시되고, 다른 계정으로 전환할 수 있는 옵션이 제공됩니다.

SSO로 로그인한 사용자는 현재 연결된 계정 정보가 표시되며, '다른 계정으로 로그인하기' 옵션을 통해 손쉽게 계정을 전환할 수 있습니다.

4.3. 고급 옵션 UI 재설계

고급 옵션 접기(collapse) 컴포넌트가 재설계되었습니다. 특히 DirectoryTree 컴포넌트를 활용하여 태스크별 마운트 경로가 트리 구조로 표시됩니다.

pic-04-3-after.png
<그림 23>DirectoryTree를 활용한 태스크별 마운트 표시

파이프라인 및 태스크의 폴더 마운트 경로가 트리 구조로 직관적으로 표시됩니다. 또한 파이프라인 및 태스크 상태 태그 스타일이 적용된 것을 확인할 수 있습니다.

4.4. 다국어 지원

파이프라인 작업 및 태스크 인스턴스의 상태와 결과 태그가 현지화되었으며, 컨테이너 로그 모달을 포함한 다양한 UI 요소에 번역이 추가되었습니다.

5. 프롬프트 관리

프롬프트 관리 기능이 추가되어 AI 모델에 전달할 프롬프트를 체계적으로 관리할 수 있습니다. 프롬프트 목록에서 제목, 내용, 태그를 확인할 수 있으며, 편집 패널에서 프롬프트 내용을 수정하고 태그를 추가하여 분류할 수 있습니다.

pic-05-prompt.png
<그림 24>프롬프트 관리 화면
프롬프트 목록과 편집 패널에서 AI 모델에 전달할 프롬프트를 체계적으로 관리할 수 있습니다.

6. 파이프라인 CLI 도구

파이프라인 관리를 위한 포괄적인 CLI 도구가 구현되었습니다. 이를 통해 터미널에서 직접 파이프라인을 생성, 실행, 관리할 수 있으며, 자동화 스크립트 작성이 더욱 용이해졌습니다. 아래는 python -m ai.backend.cli fasttrack pipeline list 명령으로 파이프라인 목록을 조회하는 예시입니다.

pic-06-cli.png
<그림 25 > 파이프라인 CLI 도구 실행 예시
터미널에서 파이프라인 목록을 조회하여 ID, 이름, 소유자, 프로젝트 정보를 확인할 수 있습니다.

7. 인증 및 보안

7.1. Keypair 서명 인증

Backend.AI keypair 서명 인증이 지원됩니다. 기존 세션 기반 인증 외에 보다 안전한 인증 방식을 선택할 수 있습니다.

7.2. 헬스체크 엔드포인트 표준화

헬스체크 엔드포인트가 표준화되어 모니터링 및 운영 관리가 더욱 편리해졌습니다. 헬스체크 API를 호출하면 서비스 상태, 버전, 컴포넌트명, 가동 시간 등의 정보를 JSON 형식으로 확인할 수 있습니다.

pic-07-2-health-1.png
<그림 26 > 헬스체크 엔드포인트 응답 예시 (1)
pic-07-2-health-2.png
<그림 27 > 헬스체크 엔드포인트 응답 예시 (2)

8. 대시보드 페이지

새로운 대시보드 페이지가 추가되어 전체 시스템 상태를 한눈에 파악할 수 있습니다. 리소스 사용량, 실행 중인 세션, 승인 대기 작업 등의 정보를 통합적으로 확인할 수 있습니다.

pic-08-dashboard.png
<그림 28 > FastTrack 대시보드 페이지
파이프라인 작업 현황, 자원 사용량, 최근 작업 목록을 한 화면에서 확인할 수 있습니다.

9. 가속기 지원 확대

fractional GPU 슬롯 표시

가벼운 작업에 리소스를 효율적으로 활용할 수 있도록 fractional 가속기 슬롯에 'fractional' 레이블이 다시 표시되어 리소스 할당 상태를 명확하게 파악할 수 있습니다.

10. 기술적 개선사항

10.1. React 19 업그레이드

React 19로 업그레이드되어 최신 React 기능을 활용할 수 있습니다. Ant Design v5와의 호환성도 확보되었습니다.

10.2. lodash에서 es-toolkit으로 마이그레이션

lodash 라이브러리가 es-toolkit으로 마이그레이션되어 번들 크기가 감소하고 성능이 향상되었습니다. es-toolkit은 더 가볍고 최신 JavaScript 표준에 최적화되어 있어 앱 로딩 속도가 빨라집니다.

10.3. Python 3.13.7 업그레이드

백엔드 Python 버전이 3.13.7로 업그레이드되어 최신 Python 기능과 성능 개선 사항을 활용할 수 있습니다.

10.4. autopilot 서비스

auto-terminate-controller 서비스가 autopilot으로 리네임되어 더욱 직관적인 서비스 구성이 가능해졌습니다.


작성자: 강정석, 송영숙

도움이 필요하신가요?

내용을 작성해 주시면 곧 연락 드리겠습니다.

문의하기

본사 및 HPC 연구소

KR Office: 서울특별시 강남구 선릉로 577 CR타워 8층 US Office: 3003 N First st, Suite 221, San Jose, CA 95134

© Lablup Inc. All rights reserved.

개인정보를 소중히 여깁니다

사용자 경험 향상, 사이트 트래픽 분석 및 방문자 동향 파악을 위해 쿠키를 사용합니다. "모두 수락"을 클릭하면 쿠키 사용에 동의하는 것입니다. 자세히 보기