송호윤 박사후연구원, LLM 학습 효율 극대화하는 다국어 토크나이저 프레임워크 ‘TREX’ 개발
2026.03.26
admin

KAIST AI기반 지능형 설계-제조 통합 연구단 소속의 송호윤 박사 후 연구원과 문화기술대학원 원인호 박사과정 학생은 다국어 대형 언어 모델(LLM)의 토크나이저 학습을 위한 최적 데이터 혼합 비율을, 소규모 프록시 토크나이저와 회귀 모델을 활용하여 효율적으로 예측하는 프레임워크 TREX를 개발했다. 이 기술은 기존의 경험적 방법이나 대규모 반복 탐색 없이도 다국어 환경에서의 토크나이저 압축 성능을 예측하며, LLM 학습 및 추론 비용을 실질적으로 절감할 수 있는 기술이다.
본 연구에서는 데이터 혼합 비율과 토크나이저 압축 성능 간의 관계를 학습하는 회귀 모델이 활용되었다. 이는 디리클레 분포로 샘플링한 다양한 혼합 구성에 대해 소규모 프록시 토크나이저를 학습하고, 각각의 압축 성능을 측정한 뒤, 이를 학습 데이터로 삼아 회귀 모델을 피팅하는 방식으로 동작한다. 핵심 지표로는 Normalized Sequence Length(NSL)을 활용하며, 이를 통해 언어별 혼합 비율이 압축 효율에 미치는 영향을 통합적으로 분석할 수 있는 장점을 갖는다. 특히, 소규모 환경에서 학습된 혼합 비율의 성능 순위가 대규모 환경에서도 일관되게 유지된다는 '순위 불변성(Rank Invariance)' 특성을 활용해, 값비싼 대규모 실험 없이도 최적 혼합 비율을 탐색할 수 있다.
연구팀은 이를 바탕으로 19개 언어, 최대 30GB 규모의 데이터에서 회귀 모델이 다양한 혼합 구성 간의 압축 성능 순위를 스피어만 순위 상관계수 0.96 이상으로 일관되게 예측하는 데 성공했다. 해당 모델이 제안한 최적 혼합 비율로 학습된 토크나이저는 LLaMA3 및 균일 분포 기반 혼합 대비 최대 12%의 압축 효율 향상을 달성했으며, 학습 분포 내외 모두에서 일관된 성능 우위를 보였다.
이 기술은 다양한 언어와 도메인에 걸쳐 실시간으로 최적 혼합 비율을 탐색하는 자동화된 토크나이저 설계 체계로 발전하여, LLM의 학습 및 추론 효율성과 다국어 표현 공정성을 동시에 향상시키는 데 기여할 것으로 기대된다.
이번 연구는 자연어처리 국제 저명 학술대회 EACL에 3월 25일 자 온라인으로 게재되었다.
해당 과제는 과학기술정보통신부의 InnoCORE 프로그램과 정보통신기획평가원이 주관하는 최고급 AI 글로벌 인재 초청 프로그램의 지원을 받아 수행되었습니다.
Dr. Hoyun Song, a postdoctoral researcher at the KAIST PRISM-AI InnoCORE Center, and Inho Won, a PhD student at the Graduate School of Culture Technology,
have developed TREX, a framework that efficiently predicts the optimal data mixing ratio for training multilingual Large Language Model (LLM) tokenizers using small-scale proxy tokenizers and regression models.
This technology predicts tokenizer compression performance in multilingual environments without existing empirical methods or large-scale iterative searches, and is a technology that can substantially reduce LLM training and inference costs.
In this study, a regression model that learns the relationship between data mixing ratios and tokenizer compression performance was utilized. This operates by training small-scale proxy tokenizers for various mixing configurations sampled from a Dirichlet distribution, measuring each compression performance, and then fitting the regression model using this as training data. Normalized Sequence Length (NSL) is used as a key metric, which has the advantage of enabling an integrated analysis of the impact of language-specific mixing ratios on compression efficiency. In particular, by utilizing the "Rank Invariance" characteristic—where the performance ranking of mixing ratios learned in small-scale environments is consistently maintained in large-scale environments—optimal mixing ratios can be explored without expensive large-scale experiments.
Based on this, the research team successfully predicted the compression performance rankings among various mixing configurations in 19 languages and up to 30GB of data, with a Spearman’s rank correlation coefficient of 0.96 or higher. The tokenizer trained with the optimal mixing ratio proposed by this model achieved up to a 12% improvement in compression efficiency compared to LLaMA3 and uniform distribution-based mixtures, and showed a consistent performance advantage both within and outside the training distribution.
This technology is expected to develop into an automated tokenizer design system that explores optimal mixing ratios in real-time across various languages and domains,
contributing to simultaneously improving the training and inference efficiency of LLMs and the fairness of multilingual representation.
This research was published online on March 25 in EACL, a world-renowned international conference on natural language processing.
This project was conducted with support from the InnoCORE program of the Ministry of Science and ICT and the Global Top Talent Researcher Invitation Program hosted by the Institute of Information & Communications Technology Planning & Evaluation (IITP).