소식

래블업 및 Backend.AI와 관련된 새 소식입니다.

Feb 6, 2026

소식

처음 걸어가는 길, 함께 만든 성과 - 래블업x업스테이지, 독자 AI 파운데이션 모델 1차수 평가 통과 비하인드

래블업 주식회사
래블업 주식회사

Feb 6, 2026

소식

처음 걸어가는 길, 함께 만든 성과 - 래블업x업스테이지, 독자 AI 파운데이션 모델 1차수 평가 통과 비하인드

래블업 주식회사
래블업 주식회사

지난 2026년 1월, 업스테이지 컨소시엄이 정부의 '독자 AI 파운데이션 모델' 사업 1차수 평가를 통과했습니다. 독자 AI 파운데이션 모델 프로젝트는 정부에서 GPU 와 데이터, 인재양성에 대한 지원을 하고 민간에서 이를 적극 이용하여 프론티어 AI 모델을 개발함으로써 국가의 AI 주권을 지킬 수 있는 모델을 개발하려는 취지로 시작되었습니다. 많은 기업에게 GPU를 나눠주는 것보다, 경쟁력 있는 기업을 선별해서 다수 개의 GPU를 집중 지원, 진짜 좋은 모델을 개발하자는 목적이었죠. 이를 통해 정부는 AI 3강 국가로 도약하고, 기업과 상생하며 성과를 만들어내고자 했습니다.

15개 컨소시엄 중 5개가 K-AI 팀으로 선발되었고, 이번 1차수 평과 결과 업스테이지 컨소시엄을 포함한 3개 팀이 남았습니다. 유일하게 스타트업으로 구성된 컨소시엄이 낸 성과라서 의미가 깊은데요, 업스테이지 컨소시엄의 이승윤 총괄, 주세환 AI 리서치 엔지니어, 인프라 파트너로 함께한 래블업의 황은진 수석연구원, 조규진 소프트웨어 엔지니어를 만나 지난 3개월간의 여정을 들어보았습니다.

Joint photograph of Lablup and Upstage — 좌측부터 업스테이지 주세환 AI 리서치 엔지니어, 이승윤 컨소시엄 총괄, 래블업 황은진 수석연구원, 조규진 소프트웨어 엔지니어

1. 컨소시엄 구성 살펴보기

독자 AI 파운데이션 모델 사업에 참여한 다른 컨소시엄과는 다르게, 업스테이지 컨소시엄은 스타트업들로 구성되어 있습니다. 업스테이지 컨소시엄 내에서 GPU 인프라 관리 소프트웨어는 래블업, 데이터 전처리는 플리토, 모델 경량화 및 최적화는 노타가 담당하며 모델 개발의 핵심 역할을 맡고 있습니다. 마키나락스, 금융결제원, 로앤컴퍼니, 뷰노, 데이원컴퍼니, 오케스트로, 올거나이즈는 각자의 도메인에 특화된 모델 개발과 서비스 확산 전략을 고민하고 있고, 산학협력으로는 서강대와 KAIST가 참여해서 모델 설계와 학습에 대한 노하우를 공유하고 있습니다.

2차수 사업을 준비하며 채널코퍼레이션, 핀다, 리얼월드, 하이퍼엑셀, 그리고 한국전자기술연구원(KETI)이 확산 파트너로 새로 합류했고, 학계 파트너로 스탠퍼드대학 최예진 교수와 뉴욕대학교 조경현 교수가 합류했습니다. 업스테이지 컨소시엄이 다른 컨소시엄과 차별화되는 이유에 대해 들어보았습니다.

Seungyoun of Upstage

Q. 스타트업들로 컨소시엄을 구성하게 된 배경이 궁금합니다.

이승윤 (업스테이지) | 글로벌 기술 트렌드가 빠르게 바뀌는데 이걸 가장 빨리 따라잡으려면 기민하게 움직이는 스타트업들이 모여야 한다고 생각했습니다. 스타트업들에게는 경험이 매우 중요한데, 상대적으로 대형 기업 대비 대형 자금을 동원하기 어려운 스타트업들은 큰 스케일에서 이런 경험을 해보기가 쉽지 않아요. 어느 기업보다도 가장 빠르게 따라가면서 저희만의 기술을 쌓아가는 게 스타트업이 살아남는 전략이고, 대기업들에 비해 더 잘할 수 있는 영역이라고 보고 있기 때문에 독자 파운데이션 모델 사업을 통해 스타트업들의 역량을 극대화하려 했습니다.

Eunjin Hwang of Lablup

Q. 래블업은 이 사업에 어떻게 참여하게 되었나요?

황은진 (래블업) | 독자 AI 파운데이션 모델 사업의 제안요청서(RFP)가 나온 후 저희 대표님께 여러 곳에서 연락이 왔었는데요, 업스테이지가 내세운 철학이 저희와 가장 잘 맞는다고 판단하셨습니다. 독자 파운데이션 모델을 만들어서 데이터와 모델을 공개하는 조건으로 정부에서 지원해 주시는 건데, 모델 공개를 안 하는 팀도 있었거든요. 업스테이지는 모델을 공개하고, 생태계 자체를 더 단단하게 만들고자 하는 의지를 강하게 보여주셨어요. 그런 점에서 저희 회사가 가진 '오픈소스 철학' 그리고 방향과 잘 맞는다고 생각해서 함께하게 되었습니다.

2. 모델과 인프라를 넘나드는 업스테이지와 래블업의 4개월간의 여정

독자 파운데이션 모델의 1차수 발표회에서, 업스테이지 김성훈 (Sung Kim) 대표는 정부 지원 GPU를 통해 업스테이지 컨소시엄이 높은 사전 학습 효율을 달성할 수 있었다고 공개했습니다. 인프라 부문 컨소시엄 파트너인 래블업의 Backend.AI 기반 운영 자동화로 장애 복구 시간을 47% 단축하였고, 그러한 개선사항 위에 업스테이지의 커널 및 사전 학습코드 최적화를 통해 120일 걸릴 분량의 20T(Trillion, 조) 토큰 사전 학습 기간을 66일로 약 40% 단축하는 성과도 이뤄냈죠. 그러한 성과를 낼 수 있었던 기술적 바탕에 대해 들어보았습니다.

2-1. 솔라 오픈 100B 모델에 대하여

DSC04367(2).jpg

Q. 솔라 오픈 모델의 특징을 설명해 주시겠어요?

주세환 (업스테이지) | 솔라 오픈 모델은 총 파라미터가 102B인 전문가 혼합 구조(MoE, Mixture of Experts) 모델입니다. 전문가 혼합 구조라는 건 여러 개의 전문가 모델을 두고 상황에 따라 필요한 전문가만 활성화하는 방식인데요, 그래서 실제로 추론할 때는 활성화되는 파라미터가 12B 수준이라 연산 측면에서 비교적 효율적입니다. GPT-OSS나 비슷한 규모의 다른 모델들과 비교해도 성능이 뒤떨어지지 않고, 한국어를 더 잘하는 것이 솔라 오픈의 특징입니다.

이승윤 (업스테이지) | 저희가 기업 고객을 주로 상대하다 보니, 고객들은 비용 효율을 고려하지 않을 수가 없습니다. 일반 밀집(Dense) 구조로 100B 모델을 만들면 실제로 활용할 수 있는 회사가 많지 않거든요. 추론 측면에서 활성화되는 파라미터가 10B 정도면 가벼운 추론 속도가 나올 수 있고, 동시에 100B 규모의 모델이 가진 능력을 충분히 발휘할 수 있기 때문에 그런 측면에서 모델 크기를 결정했습니다. 어떻게 보면 좋은 성능을 가진 모델을 어떻게 효율적으로 서비스하느냐의 관점이었고, 스타트업 철학과도 비슷한 맥락입니다.

Q. 학습 데이터는 어떻게 구하셨나요? 한국어 데이터 부족 문제는 어떻게 해결하셨는지 궁금합니다.

이승윤 (업스테이지) | 업스테이지도 노력을 많이 했고, 컨소시엄 파트너들도 도움을 주었습니다. 플리토에서는 저희가 수집한 데이터를 가공하고 처리해 주셨고, 정부에서 제공받는 데이터도 많았습니다. 플리토뿐 아니라 서비스 확산에 참여한 도메인별 전문 기업들, 예를 들어 로앤컴퍼니 같은 곳에서는 법률이나 금융 분야 데이터와 벤치마크를 제공해 주셨습니다.

주세환 (업스테이지) | 추가적으로 부족한 데이터들의 경우 자체 합성 데이터 생성 파이프라인을 만들어서 데이터를 생성하기도 했습니다. 데이터가 부족한 부분을 직접 수집하기보다는 합성하는 게 빠르고 효율적이거든요.합성 과정에서 품질이 낮은 데이터도 생기지만, 그러한 데이터들은 필터링하거나 실험으로 검증한 후에 사용했습니다. 각 학습 단계별로 어느 정도의 고품질 데이터를 투입할지 실험 결과를 통해 최적화하는 데 집중했고요, 상대적으로 작은 모델이다 보니 다른 컨소시엄에 비해 최대한 많은 데이터를 학습시키는 데 집중했습니다.

이승윤 (업스테이지) | 품질 관리가 정말 중요했습니다. 보통 저희가 100% 데이터를 수집하면 학습에 실제로 쓰는 건 1%도 안 됩니다. 그만큼 엄청나게 여러 단계를 거쳐 필터링해서 고품질 데이터만 생성하도록 하는 것이 가장 중요한 목표고요, 그래야 작은 규모의 모델로도 좋은 성능을 낼 수 있습니다.

2-2. 모델 학습을 가능하게 만들어준 든든한 토대, 인프라에 대하여

Q. 모델을 학습하기 위한 인프라 설정과 최적화도 중요했을 것 같아요.

조규진 (래블업) | 독자 파운데이션 모델 프로젝트는 기업이 모델이나 데이터를 얼마나 공개하느냐에 따라 GPU 지원 규모가 달라지는 구조인데요, 업스테이지-래블업 컨소시엄은 모델을 오픈소스로 공개하기로 결정했고, 그 결과 정부로부터 최대의 GPU 지원을 받을 수 있는 조건을 확보했습니다. 래블업은 컨소시엄이 정부로부터 지원받은 GPU 클러스터에 래블업의 AI 인프라 운영 플랫폼인 Backend.AI를 설치해서, 업스테이지에서 모델을 학습할 때 학습 시간 손실은 최소화하면서 최대의 처리량으로 클러스터를 사용할 수 있도록 지원하고 있습니다.

황은진 (래블업) | 일부 컨소시엄 파트너들은 GPU를 활용해서 모델 경량화나 최적화 작업을 하는데요, 그런 경우 제공받은 자원을 나눠서 써야 합니다. 그런 부분을 쉽게 할 수 있도록 지원하는 것도 저희가 담당하고 있고요, 1차수 평가 때 모델을 학습하는 과정뿐 아니라 평가 담당자들이 모델을 사용해볼 수 있도록 서비스하는 과정의 부하 분산, 확장 작업도 전부 Backend.AI 모델 서비스로 돌아가는 구조로 만들었습니다.

DSC04410(1).jpg

Q. 운영했던 GPU 장비는 어떤 장비였나요?

조규진 (래블업) | 저희가 사용한 장비는 SK텔레콤의 최신 GPU 클러스터인 '해인'에 위치한 엔비디아 B200 GPU입니다. B200은 엔비디아의 블랙웰 아키텍처를 기반으로 만들어진 GPU인데요, 엄청 뛰어난 성능을 자랑하는 고성능 칩입니다. 저희 컨소시엄은 총 504장을 받아 사용했고요. 학습을 진행하면서 알게 된 건데, 63개 노드를 전부 다 쓸 때 하나가 고장 나서 발생하는 시간 손실이 꽤 크더라고요. 차라리 2-3개 정도를 예비로 두는 학습 전략이 궁극적으로는 더 높은 학습 효율을 달성할 수 있다는 것을 배웠습니다. 그래서 궁극적으로는 사전 학습에는 480장의 GPU를 투입시키고, 나머지 24장의 GPU는 우선순위가 낮은 작업에 사용하되 480장에 문제가 발생하면 즉시 투입시킬 수 있도록 전략을 수정했죠.

Q. 학습하는 과정에서 예상하지 못했던 장애나 병목이 있었나요?

조규진 (래블업) | 크게 두 가지 정도가 첫 번째는 저희가 제공받은 분산 스토리지와 컨소시움의 학습 전략이 시너지가 날 수 있도록 최적화를 진행하는 부분이었습니다. 대규모 학습에 사용하는 고대역 분산 스토리지는 여러 모델들이 각기 다른 성능 특성을 보이는데요. 이러한 설계 철학이 컨소시엄에서 수립했던 사전 학습 전략과 불협화음을 일으키지 않도록 GPU 인프라 공급사인 SK텔레콤, 스토리지 공급사, 업스테이지, 그리고 래블업까지 긴밀하게 협력했습니다. 실제로 학습에 들어갔을 때는, 처음부터 모델을 새로 학습하다 보니 거대한 규모의 장비 구성에서 이전에는 보지 못했던 다양한 종류의 문제가 저희를 곤란하게 했습니다. 예를 들면 장비 규모가 커지면서 발생한 지연 시간 문제로 학습 작업이 알림도 없이 중단되는 것과 같은 일이 있었거든요. 어느 누군가의 잘못이라기 보다는, 컨소시엄의 모두가 그동안 가보지 못했던 길을 가다가 보니 마주했던 문제가 아니었을까 싶어요. 돌이켜 보면 이런 대규모의 GPU 인프라를 이용해서 학습을 진행하면 마주할 수 밖에 없는 문제였는데, 국내외를 막론하고 이런 대규모의 GPU 인프라 위에서 학습했던 경험을 자세히 풀어주는 곳이 없었거든요.

Photograph of two Lablup employees who took a role in the project

Q. GPU 장애를 막을 수 없다면, 빠르게 복구하는 것이 중요한 것 같은데요.

조규진 (래블업) | 실제로 대규모 모델 학습에서는 여러 대의 GPU 서버를 하나의 거대한 칩처럼 묶어서 사용합니다. 그 말은 한 대만 고장 나도 전체가 유휴 상태에 빠질 수 있다는 뜻이죠. 그래서 장애 발생 시 중단 시간을 최소화하고 빠르게 복구하는 과정이 필수적입니다.

주세환 (업스테이지) | 모델 학습 관점에서 GPU 장애는 치명적입니다. 만약 GPU 장애가 발생해 학습이 중단되었다면, 학습을 재시작해도 마지막 체크포인트로 되돌아가서 그 시간만큼 다시 학습해야 하기 때문에 실제 손실 시간은 더 길어지거든요. 체크포인트는 학습 중간 상태를 저장하는 지점인데, 저희는 이 간격을 최대한 짧게 가져가고 체크포인트를 만드는 지점을 세밀하게 조율해서 빠르게 모델이 학습을 재개할 수 있도록 하였습니다.

Q. 장애를 감지하고, 복구하는 과정이 쉽진 않을 것 같아요.

조규진 (래블업) | 맞습니다. '기계는 거짓말을 하지 않는다' 는 유명한 말이 있잖아요? 그런데 실제로 마주해 보니, 기계는 거짓말도 하지 않지만 아파도 말 안하는 경우도 굉장히 많더라구요. 기본적으로 GPU와 서버, 스토리지는 온도, 사용률, 메모리 사용량 같은 다양한 측정 지표를 실시간으로 내보냅니다. GPU 내부 마이크로칩들 각각의 온도나 사용량까지 세밀하게 모니터링할 수 있죠. 그러나 수치상으로는 감지하기 어려운 종류의 장애들이 존재합니다. 이런 대규모 AI 학습 환경에서는 작은 장애도 큰 병목으로 이어질 수 있기 때문에, 단순히 개별 지표를 보는 것만으로는 부족합니다. 저희는 개별 지표들을 조합하거나 패턴을 분석해서 숨어 있는 장애를 발견하는 데 집중했습니다. 이렇게 장애를 감지하면 즉시 문제가 생긴 장비를 작업 풀에서 제외하고 대체 장비를 투입합니다. 대체 장비가 정상적으로 가동되면 중단된 지점부터 학습 작업을 자동으로 재배포하는 체계를 구축했습니다. 업스테이지 분들이 추석 연휴에도 편히 쉬실 수 있도록 열심히 노력했는데, 결과를 보니 잘 작동한 것 같습니다.

황은진 (래블업) | 실제로 추석 연휴 동안에 한 번 중단됐다가 자동으로 다시 시작됐는데, 아무도 몰랐던 일이 있었습니다. (웃음)

Q. 그 과정에서 래블업은 자체 개발한 all-smi라는 시스템 모니터링 도구를 활용했다고 들었어요.

조규진 (래블업) | NVIDIA GPU에서 제공하는 다양한 지표 수집을 위해 일반적으로 사용하는 것은 DCGM (NVIDIA Data Center GPU Manager) 라는 툴인데요, 하지만 이번 독파모 클러스터의 관제에는 래블업이 자체 개발한 all-smi라는 솔루션이 사용되었습니다. all-smi는 NVIDIA GPU 외에도 AMD, Intel XPU 등의 GPU 뿐만 아니라 퓨리오사, 리벨리온 등 여러 NPU 제조사의 하드웨어에 대한 다양한 지표를 통일된 인터페이스로 표시해 주는 툴인데요. all-smi 통합을 통해서 플랫폼에 종속되지 않고, 또 앞으로 있을 다양한 국산 가속기 클러스터의 확장에도 유연하게 대응할 수 있는 관제 시스템 구축을 위한 사전 작업이었습니다.

Photo of Sehwan

Q. 래블업에서 지원한 인프라 최적화 이외에, 업스테이지에서도 효율화를 진행한 부분이 있다던데요.

주세환 (업스테이지) | PyTorch의 컴파일 기능과 체크포인트 최적화를 통해 학습 효율을 크게 개선할 수 있었습니다. 특히 대규모 모델 학습에서는 수백 장의 GPU에 모델 파라미터를 어떻게 분산하느냐가 핵심인데요, 저희는 HSDP (Hybrid Sharding Data Parallel) 방식을 채택했습니다. FSDP (Fully Sharded Data Parallel) 방식은 모델 파라미터를 모든 GPU에 분산하여 높은 메모리 효율을 보여주지만, GPU 간 통신량이 많아 대규모 클러스터에서는 속도 저하가 발생합니다. 반면 HSDP는 노드 내에서는 FSDP를, 노드 간에는 데이터 병렬을 적용하여 통신 오버헤드를 줄이면서도 메모리 효율을 유지할 수 있습니다. 실제로 저희가 사전학습을 위해 사용한 480장의 GPU에서 HSDP를 적용한 결과, 전체를 FSDP로 구성하는 것 대비 통신 병목을 크게 줄여 전체 학습 속도를 향상시킬 수 있었습니다. 이러한 최적화 기법들이 조합되면서 이전 대비 학습 처리량이 눈에 띄게 개선되었습니다.

3. 래블업의 Backend.AI로 진행한 모델 학습 경험

업스테이지 컨소시엄은 래블업의 Backend.AI를 기반으로 솔라 오픈 모델의 사전 학습을 진행했습니다. Backend.AI는 컨테이너 기반으로 AI 프레임워크와 고성능 컴퓨팅 워크로드를 호스팅하는 클러스터 플랫폼입니다. NVIDIA, Intel, AMD 등 다양한 제조사의 이기종 가속기를 지원하는 벤더 중립적 특징을 가지고 있어, 특정 하드웨어 생태계에 종속되지 않고 유연하게 인프라를 구성할 수 있습니다. Backend.AI 환경에서 실제 대규모 언어 모델을 학습해 본 경험이 어땠는지, 모델 학습을 담당한 리서처에게 사용자 경험 측면에서 들어 보았습니다.

Q. 기존에 쓰던 플랫폼과 Backend.AI가 달랐던 점이 궁금합니다.

주세환 (업스테이지) | 저는 기존에 AWS나 오라클 클라우드에서 Slurm이라는 작업 스케줄러를 사용해 왔습니다. Slurm은 GPU 장비가 항상 켜져 있고 환경 설정이 미리 완료된 상태에서 작업을 제출하면 바로 실행되는 방식입니다. 반면 Backend.AI는 작업을 요청할 때마다 새로운 컨테이너를 생성해서 항상 깨끗한 초기 상태로 시작하는 기술 구현의 차이점이 있었습니다. 두 방식 모두 장단점이 있지만, Backend.AI의 컨테이너 기반 접근 방식에서 가장 큰 장점은 환경 격리였습니다. 팀 내에서 각자 학습하거나 평가하는 환경이 모두 다른데, 개별 컨테이너로 격리되다 보니 환경 충돌이 전혀 발생하지 않았습니다. 각자만의 독립적인 환경을 구성할 수 있고, 내 작업이 다른 사람의 작업에 영향을 주거나 받을 일이 없어서 안정적으로 병렬 작업을 진행할 수 있었던 점이 좋았습니다.

조규진 (래블업) | 약간 부연 설명을 드리면, Backend.AI의 실험 환경은 데스크탑에 여러 사용자 계정을 만드는 것과 비슷해요. Slurm은 여러 명의 사용자가 하나의 PC 계정을 공유하여 사용하는 것과 비슷하기에 여러 사람의 작업물이 구분 없이 섞일 수 있지만, Backend.AI는 사용자 별로 격리된 실험 환경을 만들어 주기에 마치 윈도우 PC에서 여러 명이 서로 다른 홈 디렉토리에서 자기만의 파일을 맘껏 만들고 지울 수 있는 것처럼 동작하는 거죠.

Q. Backend.AI를 사용해보시니, 어떤 장점이 제일 와닿으셨어요?

주세환 (업스테이지) | 처음 시작하는 과정이 정말 쉬웠습니다. 제가 예전에 Slurm을 사용해 봐서 계속 비교하게 되는데, Slurm은 모든 작업을 CLI 명령어로 입력해야 해서 초기 진입 장벽이 높았습니다. 반면 Backend.AI는 직관적인 WebUI가 잘 구성되어 있어서 새로운 기능들을 쉽게 탐색하고 바로 활용할 수 있었습니다. 특히 GPU 활용률 모니터링이 편리했는데요, 몇 번의 클릭만으로 실시간 사용 현황을 확인할 수 있게 구성되어 있었습니다. 대시보드에서 GPU 상태를 한눈에 파악할 수 있다 보니, 유휴 자원 없이 워크로드를 효율적으로 배치할 수 있었고, 전체 클러스터의 활용도를 최대화하는 데 큰 도움이 됐습니다.

황은진 (래블업) | 사실 제가 업스테이지에서 사용하시는 분들을 보면서 굉장히 인상적이었던 게, 처음에 제가 한 30분 정도 간단하게 사용법을 알려드렸는데 너무 잘 쓰시더라고요. 제가 말씀 안 드렸던 것까지도 너무 잘 활용하셔서, 이분들 정말 실력이 대단하시구나 싶었습니다.

주세환 (업스테이지) | 기능적으로 가장 도움이 되었던 것은 Backend.AI와 함께 동작하는 MLOps 플랫폼인 Backend.AI FastTrack 3였습니다. Backend.AI가 GPU 장애를 자동으로 감지하고 문제가 생긴 GPU를 자원 풀에서 제외하면, Backend.AI FastTrack 3이 자동으로 사전 학습 작업을 재시작하게 되고, 재개된 사전 학습은 GPU 문제가 발생한 노드를 회피하여 배치되기 때문이죠. 한 번 설정해 두면 장애가 나도 제가 아무 대응 안 해도 자동으로 작업이 재시작되도록 할 수 있기 때문에 밤에 편하게 잠도 잘 수 있었고, GPU 장애로 인한 유휴 시간을 많이 줄일 수 있었습니다.

4. 래블업 - 업스테이지 - SK텔레콤의 협력으로 완성된 솔라 오픈 100B

독자 AI 파운데이션 모델 프로젝트를 성공적으로 수행하기 위해서는 하드웨어를 가지고 있는 SK텔레콤과 그 하드웨어를 활용해서 AI 운용 환경을 만들어내는 래블업, 그 환경 위에서 모델을 훈련시키는 업스테이지까지 세 개 회사가 한 몸처럼 움직여야 했습니다. 인터뷰하는동안 래블업과 업스테이지 담당자들은 입을 모아 SK텔레콤의 전폭적인 협조가 없었다면 지금의 솔라 오픈이 없었을 것이라 이야기했습니다. '해인' 클러스터에서 업스테이지 컨소시엄에 인프라를 제공해준 SK텔레콤의 역할에 대해서도 들어 보았습니다.

Q. SKT, 래블업, 업스테이지 간의 협업은 어떻게 이루어졌나요?

조규진 (래블업) | 사실 이 자리에 계시진 않지만, SK텔레콤 분들이 정말 많은 노력을 해주셨습니다. 장애 대응의 최종 목표는 사람이 개입하지 않는 자동 장애 복구이긴 하지만, SK텔레콤도 이런 거대 규모의 GPU 클러스터를 만들어본 경험이 없고, 저희도 그런 클러스터에서 운영 경험이 없었고, 업스테이지도 그런 클러스터에서 모델을 학습해 본 적이 없다 보니 모두가 처음에는 시행착오를 겪었습니다. 그렇지만 SKT에서도 주말 새벽 1시와 같은 늦은 시간임에도 장애가 발생하면 바로 알려주시고, 저희가 구축한 모니터링 체계에서도 곧바로 장애가 식별이 되고, 장애가 복구되면 SK텔레콤에서도 지체 없이 바로 복구됐다고 알려주시는 등 정말 성심성의를 다해 저희 컨소시엄을 지원해 주셨어요. 실제로 장애 대응에 걸린 시간을 나중에 정리해 봤더니, 처음에 1시간 이상씩 걸렸던 것들도 나중에는 거의 20~30분 정도 안에서 마무리되는 경우가 더 많았습니다. 독자 AI 파운데이션 모델 사업이 국내 회사들이 쉽게 경험하기 어려운, 이런 대형 스케일의 문제 해결이라는 소중한 경험을 할 수 있게 만들어 주었다고 생각해요.

이승윤 (업스테이지) | SK텔레콤 GPUaaS상품개발팀 김태형 리더님과 김경민님, 김동영님을 비롯한 팀이 정말 많은 노력을 해주셨고, 또 그러한 인프라를 맡아 운영을 도와준 래블업이 아니었다면 사실 쉽지 않았을 거라는 생각이 많이 들더라고요. 독자 파운데이션 보고회에서 SK텔레콤이 제공하는 GPU 인프라 위에서 저희가 실시간 데모와 부스 데모를 진행했었는데요, 김태형 리더님이 뿌듯하게 저희 부스에서 오래 머물고 가셨던 기억이 있습니다.

조규진 (래블업) | 1차수 평가를 준비할 때 에피소드인데요, 제공받은 클러스터가 학습만을 위해 설계된 클러스터였고, 저희가 나중에 같은 클러스터를 이용해서 일반 사용자 대상 서비스를 제공해야 된다는 걸 알게 되었습니다. 사전 학습을 위해 인프라를 구성하던 것과는 다른 종류의 기술적 과제가 굉장히 많았어요. 그런 부분에 있어서도 적극적으로 도와주셨고, 문제 없이 잘 넘어갈 수 있었습니다. SKT에서도 2차수 사업을 위해 기술적으로 다양한 준비를 새로 해 주신 것으로 알고 있어요. 이런 인터뷰를 한 번 더 한다면, 그 때는 SK텔레콤 분들도 모셔서 같이 해보면 어떨까 생각이 들기도 하네요. (웃음)

5. 미래를 향하는 래블업과 업스테이지

Joint photograph with Sung Kim, CEO of Upstage

Q. 1차수 사업을 마무리하며, 업스테이지와 래블업이 얻은 성과가 있다면 어떤 부분일까요?

이승윤 (업스테이지) | 크게 두 가지 성과인 것 같아요. 첫 번째로는 완전히 처음부터 (From Scratch) 시작해서 저희의 기술 역량을 증명하면서 좋은 모델을 만들었다는 것, 그리고 두 번째로는 이 모델을 다 함께 만들며 길을 걸어왔다는 것. 직접적으로 모델 개발에 기여하고 계신 파트너들부터 모델 확산 전략을 같이 고민해 주고 계신 확산 파트너들까지 모두가 함께 달성했다는 사실 자체가 중요하지 않을까 생각합니다.

조규진 (래블업) | 저희는 주로 B2B로 고객들에게 인프라 플랫폼을 공급하고 있는데요, 사업적으로 보면 저희가Backend.AI를 판매할 때는 고객은 고객의 일을 하고, 저희는 고객의 일이 잘 돌아갈 수 있도록 뒤에서 지원하는 역할을 담당하고 있어요. 고객이 우리의 인프라를 통해 어떤 일을 하고 있는지 저희는 알아서도 안되고, 알 수 있는 방법도 없습니다. 그렇다 보니 모델 학습까지 비즈니스와 강결합되어서 많은 과제를 함께 해결해 본 적이 없었거든요. SK텔레콤 해인 클러스터의 B200 GPU 504장을 동시에 활용해서 모델을 학습하는 작업은 굉장히 신선한 경험이었습니다.

Q. 업스테이지의 독자 AI 파운데이션 모델 2차수 사업 목표나 비전이 궁금합니다.

이승윤 (업스테이지) | 저희는 압도적으로 1등 할 겁니다. 1차수에서 배운 교훈으로 더 큰 모델을 만들어서 성능으로 압도하고 사용성도 좋은 모델을 만들어내겠다는 비전을 가지고 있고요. 한국어, 영어, 일본어 지원은 당연하고, 대규모 언어모델을 학습하면서 멀티모달, 그러니까 텍스트뿐 아니라 이미지나 영상까지 다루는 확장도 고려하는 작업이 이번 2차수의 핵심일 것 같습니다. 그런 것들을 잘 해내서 이후 3차수나 내년까지도 계획을 잘 이어가면서 모델을 만들어내는 게 저희 컨소시엄의 목표입니다. 저희가 모델 라이선스를 상업적으로도 사용할 수 있게끔 열어놨습니다. 솔라는 독자 라이선스이긴 하지만, 아파치 라이선스와 거의 비슷한 수준으로 만들었거든요. 특화 모델을 만든다든가, 솔라 오픈의 구조나 기술 보고서를 참고해서 자기만의 모델을 만든다든가, 오픈소스 생태계에 기여하기 위한 발판이 되는 모델이 됐으면 좋겠다는 생각을 하고 있습니다.

주세환 (업스테이지) | 1차수 사업을 진행하며 저희 내부 모델 팀이나 컨소시엄 모두가 정말 많은 시행착오를 겪으며 많은 것을 배웠던 것 같아요. 실무자 입장에서는 프로세스를 비롯해 많은 부분들을 보완하고, 앞으로 더 빨리, 더 멀리 나아갈 수 있도록 적용하려 합니다.

Q. 래블업의 독자 AI 파운데이션 모델 2차수 사업 목표나 비전은 무엇인가요?

황은진 (래블업) | 저희는 1차수 때와 동일하게 업스테이지가 가용한 최대 자원으로 모델을 개발할 수 있도록 지원하는 역할에 최선을 다할 예정입니다. 1차수를 진행하며 업스테이지에서 적극적으로 Backend.AI와 Backend.AI FastTrack에 대한 다양한 의견을 주셨어요. 그러한 피드백을 반영해서 저희가 2차수 때는 새로운 기능들을 코어 엔진에 반영할 예정으로 열심히 개발을 이어가고 있습니다.

조규진 (래블업) | 3월 초 릴리즈를 목표로 추가 예정인 Backend.AI 추가 기능 중 자원 선점 (Preemption) 이 있습니다. 시행되는 작업들 간의 우선순위를 설정하고, 클러스터 내에 자원이 부족한 상태에서 더 높은 우선순위의 작업이 생성될 경우 낮은 우선순위의 작업을 종료하고 배정된 자원을 자동 회수하는 기능이에요. 이를 통해서 GPU 자원을 항상 우선순위가 높은 작업에 몰아주도록 훈련 전략을 짤 수가 있죠. 독자 파운데이션 모델 프로젝트는 굉장히 빡빡한 자원 사용 계획으로 진행되기 때문에 GPU 한 장 한 장이 소중합니다. 이 상황에서 사전 학습을 위해 많은 리소스를 우선 할당하고, 상대적으로 덜 중요한 작업들에 작업 후순위를 할당하는 기능을 통해 학습 효율을 더 높일 계획입니다.

황은진 (래블업) | 저희 제품 관점으로 보자면, 2차수부터는 저희 컨소시엄 파트너들도 적극적으로 Backend.AI를 사용하게 됩니다. 1차수 때는 단일 학습 케이스를 지원하는 데 집중했다면, 2차수에는 컨소시엄 파트너들로부터 들어오는 다양한 피드백을 바탕으로 Backend.AI를 좀 더 적극적으로 개선하는 방향으로 갈 수 있지 않을까 생각하고 있습니다.

※ 솔라 오픈 모델은 아파치 라이선스와 유사한 독자 라이선스로 상업적 사용이 가능하며, 오픈소스로 공개되어 있습니다. 업스테이지 컨소시엄은 2차수에서 더욱 강화된 모델과 인프라로 압도적인 성과를 목표하고 있으며, 래블업, 업스테이지, SKT의 긴밀한 협업은 2차수에서도 계속될 예정입니다.

래블업은 앞으로도 대한민국의 주권을 반영한 AI 모델을 만들어나가는 모든 과정에서 최선을 다하겠습니다.

해당 인터뷰는 2026년 1월에 진행되었습니다.

Interviewee 황은진 (래블업), 조규진 (래블업), 이승윤 (업스테이지), 주세환 (업스테이지)

Interviewer, Editor, and Photographer 허진호 (래블업)

backend.ai

블로그

소식

처음 걸어가는 길, 함께 만든 성과 - 래블업x업스테이지, 독자 AI 파운데이션 모델 1차수 평가 통과 비하인드

처음 걸어가는 길, 함께 만든 성과 - 래블업x업스테이지, 독자 AI 파운데이션 모델 1차수 평가 통과 비하인드

1. 컨소시엄 구성 살펴보기

Q. 스타트업들로 컨소시엄을 구성하게 된 배경이 궁금합니다.

Q. 래블업은 이 사업에 어떻게 참여하게 되었나요?

2. 모델과 인프라를 넘나드는 업스테이지와 래블업의 4개월간의 여정

2-1. 솔라 오픈 100B 모델에 대하여

Q. 솔라 오픈 모델의 특징을 설명해 주시겠어요?

Q. 학습 데이터는 어떻게 구하셨나요? 한국어 데이터 부족 문제는 어떻게 해결하셨는지 궁금합니다.

2-2. 모델 학습을 가능하게 만들어준 든든한 토대, 인프라에 대하여

Q. 모델을 학습하기 위한 인프라 설정과 최적화도 중요했을 것 같아요.

Q. 운영했던 GPU 장비는 어떤 장비였나요?

Q. 학습하는 과정에서 예상하지 못했던 장애나 병목이 있었나요?

Q. GPU 장애를 막을 수 없다면, 빠르게 복구하는 것이 중요한 것 같은데요.

Q. 장애를 감지하고, 복구하는 과정이 쉽진 않을 것 같아요.

Q. 그 과정에서 래블업은 자체 개발한 all-smi라는 시스템 모니터링 도구를 활용했다고 들었어요.

Q. 래블업에서 지원한 인프라 최적화 이외에, 업스테이지에서도 효율화를 진행한 부분이 있다던데요.

3. 래블업의 Backend.AI로 진행한 모델 학습 경험

Q. 기존에 쓰던 플랫폼과 Backend.AI가 달랐던 점이 궁금합니다.

Q. Backend.AI를 사용해보시니, 어떤 장점이 제일 와닿으셨어요?

4. 래블업 - 업스테이지 - SK텔레콤의 협력으로 완성된 솔라 오픈 100B

Q. SKT, 래블업, 업스테이지 간의 협업은 어떻게 이루어졌나요?

5. 미래를 향하는 래블업과 업스테이지

Q. 1차수 사업을 마무리하며, 업스테이지와 래블업이 얻은 성과가 있다면 어떤 부분일까요?

Q. 업스테이지의 독자 AI 파운데이션 모델 2차수 사업 목표나 비전이 궁금합니다.

Q. 래블업의 독자 AI 파운데이션 모델 2차수 사업 목표나 비전은 무엇인가요?

개인정보를 소중히 여깁니다