우리는 정말 데이터가 부족할까?

엔지니어링

Jul 1, 2026

엔지니어링

우리는 정말 데이터가 부족할까?

조원익
책임연구원 @삼성전자 AI센터
송영숙
연구원

Jul 1, 2026

엔지니어링

우리는 정말 데이터가 부족할까?

조원익
책임연구원 @삼성전자 AI센터
송영숙
연구원

한국어 자연어 처리를 이제 막 시작한 연구자가 있다고 가정해 보겠습니다. 파서를 학습시키거나 감정 분석 모델을 만들려면 데이터셋이 필요합니다. 그래서 연구자는 데이터셋을 찾기 시작합니다. 그러나 막상 쓸만한 자료가 많이 보이지 않습니다. 동료 연구자들에게 고민상담을 합니다. 동료들은 “한국어는 저자원 언어(Low-resource language)다.” 내지는 “자료가 부족한 문제라서 어쩔 수 없다”라고 합니다.

이 연구자는 데이터셋을 구하기 위해 한국어 자원의 역사를 따라가기 시작했습니다. 그러나 통념적으로 알려진 내용과는 다소 다른 내용들을 발견하게 됩니다. 이미 1990년대부터 KAIST는 트리태깅 코퍼스와 형태통사 주석 코퍼스를 만들었고, 국립국어원은 3억 어절 규모의 세종 코퍼스를 구축해 두었습니다. 정부는 지금도 AI 허브를 통해 수백 종의 학습용 데이터셋에 예산을 투입하고 있었죠. 이런 점들로 미루어 보아 연구자는 절대적으로 자료가 적은 것은 아니라는 사실을 발견하게 되었습니다.

문제는 다른 곳에 있었습니다. 자료 자체는 어느정도 확보되어 있지만, 그 자료의 가시성이 크게 떨어지는 문제가 있었던 것입니다. 존재하는 자료를 볼 수 없었기 때문에 연구가 그렇게 어려웠던 것입니다.

이 문제를 정리해 보기 위해, 2020년에 공개되고 최근 개정된 Open Korean Corpora: A Practical Report를 참고했습니다. 이 보고서는 한국어 데이터셋을 목록과 수치로 모아 둔 자료입니다. 이 글에서는 그 내용을 바탕으로 지금 실제로 쓸 수 있는 한국어 데이터가 무엇인지 짚어봅니다.

한국어 자원은 정말 부족한가, 아니면 흩어지고 비공개 되어 있어서 부족해 보이는가?

저자원 언어라는 말 뒤에 숨어있는 사실들

Ethnologue 2026 기준으로 한국어 화자는 약 8,200만 명입니다. 중국어, 일본어와 함께 CJK라는 그룹으로 묶여 다국어 연구에서 다루는 비중도 점점 커지고 있고, 산업 현장의 수요도 상당한 편입니다. 그런데 국제 학계에서 한국어 자연어 처리 논문이 꾸준히 나오는 것에 비해 그 논문을 이어받아 발전시키는 후속 연구는 눈에 띄게 적습니다. 최근 자연어 처리에서는 벤치마크를 위한 공정한 평가 데이터의 중요성이 강조되고 있습니다. 이런 데이터가 잘 정리되어 공개되어 있어야 후속 연구가 따라붙을 수 있기 때문입니다. 바로 이 지점이 한국어의 가장 큰 약점입니다. 어디에 무엇이 있고 어떤 조건으로 쓸 수 있는지를 한눈에 보여주는 정리가 부족하기 때문에 데이터 자체의 활용이 불가한 것입니다.

좋은 자료는 많지만, 문은 좁다

한국어 자원 생태계에서 기관이 만든 자료는 큰 비중을 차지합니다. 대표적인 기관과 해당 기관이 만든 자료를 소개합니다.

KAIST

KAIST는 한국어 전산언어학의 출발점에 해당하는 자원을 다수 만들었습니다. 트리태깅 코퍼스, 형태통사 주석 코퍼스, 음차·번역 평가 세트 및 한중 다국어 코퍼스를 비롯한 다양한 자료들은 전 세계 연구자들에게 파서 학습과 공유 과제의 기준 자료로 활용되었고, Universal Dependencies 트리뱅크 같은 파생 자원의 바탕이 되었습니다. 다만 시간이 지나고 배포되던 웹사이트가 개편을 거치며 원래의 배포 링크가 상당수 끊겼고, 새로 들어온 연구자가 자료에 접근하기 어려운 환경이 만들어졌다는 한계점을 가지고 있습니다.

Linguistic Data Consortium(LDC)

Linguistic Data Consortium(LDC)은 1992년 설립 이래 표준화된 한국어 자원을 전 세계에 배포해 왔습니다. Korean Newswire, Korean Treebank, Korean Propbank, 가장 최근의 Penn Korean Universal Dependency Treebank까지 텍스트와 음성을 아우르는 자원을 담당하고 있습니다. 앞서 소개한 것과 같은 학술 호스팅은 시간이 지나며 사라지기도 하지만, LDC는 영구 보관과 표준 라이선스라는 기관 모델 덕분에 인용과 접근이 꾸준히 유지된다는 강점이 있습니다.

국립국어원

국립국어원은 한국어의 규범을 세우는 기관이면서, 동시에 대규모 데이터셋 구축도 활발히 수행하고 있습니다. 가장 대표적인 데이터셋이 한국어 사전과 세종 코퍼스이고, 최근에는 유사도와 함의 같은 문장 간 과제를 다루는 약 3억 어절 규모의 코퍼스를 공개하는 등 활발한 활동을 이어오고 있습니다. 2026년 2월 기준 약 169종의 데이터셋이 사용자 신고와 학계 피드백을 받아 지속적으로 갱신되고 있습니다.

ETRI

ETRI는 오랜 기간 언어 처리와 음성 학습 데이터를 모으고 다듬어 왔으며, 엑소브레인 프로젝트를 통해 의미 분석과 질의응답 데이터베이스, 품사 태깅과 의미역 결정 자료, 그리고 구축 지침까지 제공하고 있습니다.

한국지능정보사회진흥원(NIA)

한국지능정보사회진흥원(NIA)은 AI허브라는 대규모 데이터 플랫폼을 운영하고 있습니다. 정부 차원에서 법률, 특허, 상식, 오픈 대화, 기계 독해, 기계 번역 등 실제 도메인의 라벨링·병렬 코퍼스를 모으고 있는 것이죠. 여기에는 약 1,000시간의 음성 코퍼스, 웰니스와 감정 대화 데이터도 포함됩니다. 2026년 7월 기준으로 968종의 AI 학습 데이터셋이 공개되어 있고, 그 중 한국어 데이터셋은 182종입니다.

위 기관에서 공개하는 자원들은 잘 정의된 지침 아래서 만들어졌고, 숙련된 작업자가 만들었기 때문에 높은 품질을 보장합니다. 그러나 절차상의 이유로 국내 연구자에게만 열려 있는 경우가 많고, 국제적으로 공개되어 있어도 신청서를 작성해야만 사용할 수 있는 경우가 많아 한계도 뚜렷합니다. 무엇보다 수정과 재배포가 제한되는 경우가 잦아, 후속 연구가 자료를 고치고 발전시켜 나가기 어렵습니다.

여기서 시야를 조금 좁혀 볼 필요가 있습니다. 모든 한국어 자원을 한꺼번에 세는 대신, 실제로 연구자와 개발자가 자유롭게 쓸 수 있는 자료만 따로 보면 한국어 데이터의 현재 상태를 정확하게 파악할 수 있습니다.

실제로 사용할 수 있는 자료 구분하기

데이터를 실제로 쓰려는 사람이 하는 질문은 크게 3가지 종류로 좁혀볼 수 있습니다. 1. 어디서 받는가, 2. 상업 서비스에 사용해도 되는가, 3. 고쳐서 다시 배포할 수 있는가. Open Korean Corpora 보고서는 이런 관점에서 공개 접근이 가능한 자료를 추려 각 질문에 대응하는 세가지의 표식을 부여했습니다.

문서화 (Documentation)

문서화의 판별 기준은 자료의 구축 과정과 사용 목적을 설명하는 공개 문서가 존재하는지의 여부입니다. 영어 논문, 블로그 글, GitHub README처럼 국제 연구자가 바로 확인할 수 있는 문서가 있으면 int'l, 국내 사이트나 한국어 안내 문서만 있으면 dom., 공식 설명이 없으면 none으로 표시되어 있습니다.

사용 범위 (Usage)

각 데이터셋은 사용 가능한 범위가 제한되어 있습니다. 학술과 상업 모두 가능하면 all, 학술용만 가능하면 academic, 불분명하면 unknown으로 표시되어 있습니다.

재배포(Redistribution)

수정을 포함한 재배포가 가능하면 rd, 수정 없는 재배포만 가능하면 rd/mod-x, 불가능하면 none, 불분명하면 unknown으로 표시되어 있습니다.

Open Korean Corpora 보고서에서는 이렇게 각 자료마다 [int'l, all, rd] 같은 꼬리표를 달아, 연구자가 자기 상황에 맞는 자료를 빠르게 가려낼 수 있게 했습니다.

오픈 데이터셋을 범주에 따라 분류하다

이 기준으로 모은 자료는 과제 성격에 따라 10개 범주로 나눌 수 있습니다. 해당 범주들은 한국어 자연어 처리가 다루는 거의 모든 영역을 포괄합니다. 만들고 싶은 대상이 명확하게 정해져 있는 경우에는 표를 따라 필요한 데이터를 찾아가면 됩니다. 예를 들어, 감성 분석이면 NSMC, 혐오 표현 필터면 KOLD나 K-HATERS, 한국어 LLM 평가면 KMMLU를 고르면 되는 것입니다.

분류	개수	대표 데이터셋
벤치마크 연구	8	KLUE, KoBEST, KMMLU, HAE-RAE Bench
구문 분석과 태깅	6	UD Korean KAIST, OpenKorPOS, KoNEC
함의·유사도·패러프레이즈	7	KorNLI/KorSTS, ParaKQC, StyleKQC
의도 이해와 감성 분석	11	NSMC, 3i4K, KOTE, KPoEM
혐오 표현 탐지와 편향	15	BEEP!, KOLD, K-HATERS, KoBBQ
질의응답과 대화	12	KorQuAD, CLIcK, KorNAT, K-Viscuit
요약·번역·음차	10	Korean Parallel Corpus, XL-Sum
다국어 코퍼스 속 한국어	9	PAWS-X, TyDi-QA, MASSIVE
음성 코퍼스	9	KSS, Zeroth, ClovaCall, OLKAVS
그 밖의 도메인	13	LBox Open, KorMedMCQA, KoCHET

혐오 표현 탐지와 편향이 15종으로 가장 많고, 질의응답과 대화가 12종, 의도 이해와 감성 분석이 11종으로 뒤를 잇습니다. 의료, 법률, 문화유산 같은 전문 도메인을 묶은 그 밖의 도메인도 13종에 이릅니다. 한국어 자원이 기초 과제를 넘어 여러 방향으로 분화하고 있다는 뜻입니다.

연도별 공개 수, 분류별 분포, 분류별 사용 라이선스와 문서화 현황 그래프.

전체 지형을 한 장으로 본 그림. (a) 연도별 공개 수와 (b) 분류별 분포는 자원이 언제, 어디로 늘었는지를 보여주고, (c) 사용 라이선스와 (d) 문서화는 그 자료를 실제로 쓸 수 있는지를 보여줍니다. 상업 서비스에 활용할 수 있는지, 영어 문서가 있는지도 분류별로 가늠해 볼 수 있습니다.

숫자로 확인하는 한국어 NLP 생태계

이렇게 오픈 코퍼스를 정리한 결과, 모두 100종의 코퍼스가 확인되었습니다. 한국어 전용 텍스트 코퍼스 82종, 한국어를 포함한 다국어 코퍼스 9종, 음성 코퍼스 9종입니다. 조금 더 자세하게 접근성 측면에서 분석을 해보면, 53%가 상업적 사용을 허용하고, 86%가 국제 연구자가 바로 확인할 수 있는 공개 문서를 제공하고 있는 것을 확인할 수 있습니다. 81%는 어떤 형태로든 재배포를 허용합니다. 앞 그림의 (c)와 (d)가 이 숫자를 분류별로 풀어 놓은 것입니다.

데이터를 통해 현재 강점과 약점을 모두 확인할 수 있습니다. 국제 연구자가 바로 확인할 수 있는 공개 문서를 갖춘 자료가 86%에 이른다는 점은 분명한 진전입니다. 이전 서베이에서 많은 한국어 자원이 영어 논문이나 공개 README 같은 문서를 갖추지 못했던 상황과 비교하면 더욱 그렇습니다. 벤치마크, 다국어, 음성 코퍼스는 모두 접근 가능한 문서를 갖추고 있었습니다. 평가 자원은 국제적으로 접근 가능해야 재현 연구가 가능하다는 인식이 자리 잡은 결과로 보입니다. 반면 구문 분석과 태깅은 50%에 머물렀습니다. 상당수가 국내 경진대회나 기관 목적으로, 오픈 사이언스 관행이 자리 잡기 전에 만들어졌기 때문으로 보입니다.

재배포 쪽에서는 68%가 수정을 포함한 완전 재배포를, 13%가 수정 없는 재배포를 허용하고 있습니다. 명시적으로 재배포를 금지한 자료는 5%뿐이며, 이 중 대부분은 원천 트리뱅크의 라이선스 제약을 받는 구문 분석, 태깅 자료였습니다. 다만 14%는 재배포 상태가 불분명하게 남아 있습니다. 공개 데이터셋이라고 해도 라이선스 조건이 모호하게 적혀 있거나 아예 빠져 있는 경우가 아직 남아 있다는 뜻입니다.

조금 더 자세히 역사를 들여다 보며느 시간 분포에 따라 한국어 자원의 성장을 나눠볼 수 있습니다. 초기(2015-2017)에는 네 종의 자원만 공개되어 있었습니다. 한국어 자연어 처리가 주로 기관의 울타리 안에서 이뤄지던 시기입니다. 성장기(2018-2021)에는 BERT를 비롯한 사전학습 언어 모델이 확산하면서 구문 분석 코퍼스, 감성 분석 데이터, 음성 코퍼스 같은 토대 자원이 쌓였고, 2021년 말에는 누적 35종에 이르는 코퍼스가 확보되었습니다. 가속 단계(2022-2025)에는 단 4년 만에 65종이 새로 공개되는 기염을 토합니다. 특히 2022년 21종, 2024년 25종이라는 두 번의 정점이 두드러지게 나타납니다.

2022년의 약진은 KoBEST와 KLUE 같은 종합 벤치마크의 확산, 그리고 온라인 유해성에 대한 관심이 높아지며 늘어난 혐오 표현 탐지 데이터가 이끌었습니다. 2024년의 정점은 거대 언어 모델 시대에 대한 한국어 커뮤니티의 빠른 반응을 보여줍니다. Ko-H5/Open-Ko-LLM, HAE-RAE Bench, KMMLU 같은 LLM 전용 평가 벤치마크와 CLIcK, KorNAT 같은 문화적 맥락 평가 자료가 이 시기에 등장했습니다.

![연도별 신규 공개 수(왼쪽)와 2015년부터 2025년까지의 누적 공개 수(오른쪽) 그래프.](

한국어 오픈 코퍼스의 시간 분포. 왼쪽은 연도별 신규 공개 수로 2022년(21종)과 2024년(25종)의 두 정점이 두드러지고, 오른쪽은 2015년 1종에서 2025년 100종에 이르는 누적 성장을 보여줍니다.

최근 늘어난 데이터들 살펴보기

과제 분류별로 색을 나눈 누적 영역 그래프. 혐오 표현과 편향, 질의응답과 대화 영역이 2022년 이후 두껍게 늘어납니다.

과제 분류별 누적 성장. 2021년 이후 혐오 표현과 편향, 질의응답과 대화, 벤치마크 영역이 빠르게 두꺼워지는 반면, 구문 분석과 태깅은 상대적으로 정체되어 있습니다.

누적 추이를 과제별로 쪼개 보면 한국어 연구 커뮤니티의 우선순위가 어떻게 바뀌어 왔는지 짐작할 수 있습니다. 첫째는 혐오 표현과 편향 탐지의 성장입니다. 단일 분류로는 가장 큰 15종이며, 대부분 2020년 이후에 나왔습니다. 한국 디지털 플랫폼에서 온라인 혐오 표현에 대한 사회적 인식이 높아지고 콘텐츠 관리의 필요가 커진 흐름과 맞닿아 있습니다. 상업 사용 66.7%, 재배포 86.7%로 접근성 지표도 양호합니다. AI 안전 연구를 뒷받침하려는 커뮤니티의 의지가 읽히는 대목입니다.

둘째는 벤치마크의 성격 변화입니다. 2021년 무렵부터 벤치마크 연구가 집중적으로 늘어나는데, 그 안에서도 무게중심이 옮겨갑니다. 인코더 기반 모델의 판별 과제 평가(KLUE, KoBEST)에서, 디코더 기반 생성 모델의 능력 평가(KMMLU, HAE-RAE Bench)로 이동했습니다. 이제는 사실성, 문화적 적절성, 복합 추론처럼 단순 패턴 매칭을 넘어선 능력을 보려는 쪽으로 관심이 옮겨가고 있습니다. 최근 벤치마크 다수가 데이터 오염을 막기 위해 비공개 테스트셋이나 오염 탐지 장치를 도입한 것도 같은 맥락입니다.

반면 구문 분석과 태깅 같은 고전적 파이프라인 과제는 2022년 이후 성장이 정체된 편입니다. 커뮤니티의 관심이 현대 LLM 응용에 더 가까운 상위 수준의 언어 이해 과제로 옮겨갔다고 볼 수 있습니다.

데이터 파일에서 제거된 두 가지 자료: 원시 텍스트와 합성 데이터

무엇을 담느냐만큼 무엇을 빼느냐도 자료 정리의 일부입니다. Open Korean Corpora는 두 종류의 자료를 의도적으로 제외했습니다. 하나는 가공되지 않은 원시 웹 텍스트입니다. 사전학습용 대규모 텍스트는 주석된 과제 데이터와 깨끗함, 형식, 구축 목적이 크게 다릅니다. 이런 자료는 Polyglot 같은 한국어 사전학습 프로젝트의 보고서에서 더 충실히 다루므로, 독자를 그쪽으로 안내하는 편이 낫다고 본 것입니다.

다른 하나는 완전 합성 데이터셋입니다. 사람이 실질적으로 선별하고 다듬지 않고, 언어 모델만으로 생성한 자료를 말합니다. 합성 데이터가 빠른 구축을 위한 효율적 방법으로 떠오르고 있지만, 한국어 연구에서는 신중하게 따져볼 지점이 있습니다. 합성 데이터를 만드는 모델 대부분이 영어 중심으로 학습되어 한국어의 언어적·문화적 결을 충분히 담지 못할 수 있고, 그 과정에서 편향과 오류가 이어질 수 있습니다. 품질과 다양성을 대규모로 검증하기도 어렵습니다. 무엇보다 합성 데이터를 사람이 만든 자료와 나란히 두면, 실제로 사람이 선별하고 정리한 한국어 자원이 얼마나 되는지 가늠하기 어려워집니다.

다만 해당 자료에서는 CareCall이나 KoCoSa처럼 LLM이 생성한 내용을 사람이 엄격하게 필터링하고 주석한 하이브리드 자료는 포함했습니다. 사람이 개입한 검증 과정이 품질을 어느 정도 담보한다고 보았기 때문입니다. 합성 데이터를 어떻게 검증하고 활용할지에 대한 이해가 무르익으면, 향후 개정판에서는 투명한 생성 방법과 엄정한 품질 보증을 갖춘 자료에 한해 이 기준을 다시 검토할 수 있을 것입니다.

그래서, 한국어는 진짜 저자원 언어일까요?

대부분의 논문은 영어로 쓰이고, 형태 또한 학술적입니다. 그러나 정작 한국어 자원이 필요한 사용자들은 한국어로 연구를 시작하는 학생과 기업의 실무자들일 것입니다. 흩어져 있는 자료들을 하나로 모으는 것 만큼이나 사람이 읽을 수 있는 형태로 자료를 풀어내는 것도 중요한 일이라고 볼 수 있습니다. 공개 코퍼스를 카테고리별로 정리하고, 문서화 수준, 사용 범위, 재배포라는 기준으로 상태를 구분하면 연구자가 한국어 데이터의 전체 모습을 훨씬 명확하게 파악할 수 있습니다. 하나의 표만으로 어떤 데이터가 어떤 조건에서 활용 가능한지 빠르게 확인할 수 있기 때문입니다. 특히 연구자에게 중요한 라이선스 범위, 즉 상업적 이용 가능 여부와 수정 후 재배포 가능 여부까지 한 눈에 가려낼 수 있으니 데이터 활용에 대한 가시성도 크게 향상됩니다.

한국어가 저자원이라는 말은 절반의 진실일 뿐입니다. 자료가 없는 것이 아닙니다. 단순히 흩어져 있고, 폐쇄되어 있으며, 사람들에게 충분히 알려지지 않았을 뿐이죠. 좋은 퀄리티를 가진 기관 생성 자료들은 접근하기 위한 문이 매우 좁으며, 자유롭게 사용 가능한 공개 자료는 웹 여기저기에 흩어져 있어서 가시성이 매우 낮습니다. 그래서 필요한 것은 그 사이를 잇는 지도 역할을 하는 매개체입니다. 정부는 지금도 적지 않은 예산을 데이터베이스 구축에 사용하고 있습니다. 이러한 노력이 의미 있는 성과로 이어지고 국제적으로 활용 가능하게 하려면, 목록을 주기적으로 갱신하고, 설명 방식을 표준화하는 것과 더불어 라이선스를 명확하게 세팅하는 것 부터 출발해볼 필요성이 있습니다.

참고 자료

Paper: Open Korean Corpora: A Practical Report
Repository: ko-nlp/Open-korean-corpora
Ethnologue: Korean

블로그

엔지니어링

우리는 정말 데이터가 부족할까?

우리는 정말 데이터가 부족할까?

저자원 언어라는 말 뒤에 숨어있는 사실들

좋은 자료는 많지만, 문은 좁다

KAIST

Linguistic Data Consortium(LDC)

국립국어원

ETRI

한국지능정보사회진흥원(NIA)

실제로 사용할 수 있는 자료 구분하기

문서화 (Documentation)

사용 범위 (Usage)

재배포(Redistribution)

오픈 데이터셋을 범주에 따라 분류하다

숫자로 확인하는 한국어 NLP 생태계

최근 늘어난 데이터들 살펴보기

최신 목록을 유지하는 것의 본질적인 어려움

데이터 파일에서 제거된 두 가지 자료: 원시 텍스트와 합성 데이터

그래서, 한국어는 진짜 저자원 언어일까요?

개인정보를 소중히 여깁니다