TrainAI의 대형 언어 모델(LLM) 벤치마킹 연구에서 합성 데이터 생성 분야의 리더로 선정된 Claude Sonnet, GPT 및 Gemini Pro

TrainAI의 LLM 합성 데이터 생성 연구는 인간 전문가 평가를 기반으로, 8개 언어에 걸친 6가지 데이터 생성 과제를 통해 9개의 대표적인 대형 언어 모델(LLM)을 벤치마킹하였습니다.

영국 메이든헤드
4/29/2025 9:00:00 AM

TrainAI의 최신 LLM 벤치마킹 연구에 따르면, 대형 언어 모델(LLM)의 문장 및 대화 생성 능력 측면에서 Claude Sonnet, GPT, 그리고 Gemini Pro가 가장 우수한 성과를 보였습니다.

기존의 폐쇄형 질문 기반 자동화 벤치마크와는 달리, 이번 TrainAI의 합성 데이터 생성 연구는 인간 전문가 평가자를 통해 주요 LLM들이 문장 및 대화를 생성하는 능력을 검증하였으며, 다양한 언어에서의 자연어 처리(NLP) 역량 전반을 평가했습니다.

“이번 연구를 진행한 이유는, 최신 LLM을 개발 중인 주요 빅테크 기업들이 신규 모델 학습에 사용할 데이터가 점점 고갈되고 있다는 보고^[1]들이 있었기 때문입니다.” TrainAI의 벤치마킹 프로젝트에서 기술 솔루션을 이끄는 토마시 부르케르트(Tomáš Burkert)는 이렇게 설명합니다. “OpenAI, Anthropic, Google과 같은 기업들은 사람이 아닌 LLM이 생성한 합성 데이터를 활용하여 AI 모델을 학습 및 미세 조정하는 방안을 적극적으로 검토하고 있으며, 저희는 이러한 접근 방식이 실제로 어떤 영향을 미칠 수 있는지, 그 가능성과 한계를 탐색해보고자 했습니다.”

이에 따라 이번 연구에서는 9개의 주요 LLM을 선정해, 복잡도가 서로 다른 6가지 데이터 생성 과제를 수행하도록 했으며, 언어적 다양성과 대표성을 고려해 정교하게 선정된 8개 언어를 기반으로 평가를 진행하였습니다. 이를 위해 각 언어마다, 해당 언어를 모국어로 사용하는 언어 전문가 3명이 문법, 자연스러움 등 특정 기준에 따라 LLM이 생성한 출력 결과를 평가했습니다. 전체적으로 38,000개의 문장이 생성되었고 115,000개의 주석이 제출되었으며, 전 세계 27명의 언어학자가 1점(매우 낮음)에서 5점(매우 좋음) 척도로 250,000건의 평가를 제공했습니다.

RWS의 엔터프라이즈 서비스 사장인 바사기 코탄다파니는 이에 대해 “AI는 인간을 위해 제작되었으므로, 우리는 LLM 성능을 평가할 때 AI가 아닌 인간을 선택했습니다. 당사 연구에 따르면 전체 언어와 작업에서 합성 데이터를 생성할 때 특출한 성능을 보인 단일 모델은 없었지만, 언어 능력, 지침 준수, 창의성, 속도 및 비용 등의 주요 기준에서 다른 모델보다 성능이 뛰어난 모델은 있었습니다."라며 “이 연구는 특정 AI 사용 사례 또는 애플리케이션을 대상으로 여러 LLM의 강점과 한계를 평가하는 일이 얼마나 중요한지를 말해 줍니다. 이렇게 해야먄 진정한 가치와 긍정적인 비즈니스 영향력을 실현할 수 있기 때문입니다.”라고 설명했습니다.

^[1]Villalobos, P., Ho, A., Sevilla, J., Besiroglu, T., Heim, L. 및 Hobbhahn, M. (2024). 포지션 페이퍼: 데이터가 부족해질 것인가? 사람이 생성한 데이터를 기반으로 한 LLM 확장의 한계(Will we run out of data? Limits of LLM scaling based on human-generated data). Machine Learning Research 프로시딩 235:49523-49544. proceedings.mlr.press/v235/villalobos24a에서 확인 가능.

편집자를 위한 용어 설명:

TrainAI의 LLM 합성 데이터 생성 연구 사본을 다운로드하세요.
RWS의 TrainAI는 책임감 있는 AI 원칙에 따라 모든 언어, 모든 규모에서 모든 유형의 AI 데이터에 대해 완벽한 엔드투엔드 데이터 수집, 주석 유효성 검사, 생성형 AI 학습 및 미세 조정 서비스를 제공합니다.

회사 소개

RWS는 세계에서 가장 신뢰할 수 있는 엔터프라이즈 AI를 지원하는 글로벌 AI 솔루션 기업입니다.

250,000명의 데이터 전문가, 문화 및 언어 전문가, 심도 있는 도메인 전문가가 참여하고 45개 이상의 특허로 뒷받침되는 RWS의 독자적인 문화 인텔리전스 레이어는 엔터프라이즈 AI를 문화적으로 유창하고 맥락적으로 정확하며 안전하게 만들어 모든 상호 작용이 브랜드의 어조, 컨텍스트 및 고객 가치를 반영하도록 합니다.

Generate, Transform, Protect 세그먼트를 통해 글로벌 성장을 위한 지능형 콘텐츠, 엔터프라이즈 지식, 대규모 현지화 및 IP 보호 솔루션을 제공합니다. 전 세계 100대 브랜드 중 80개 이상의 브랜드가 신뢰하는 RWS는 안전하고 책임감 있게 대규모로 AI를 배포하는 데 필요한 자신감, 거버넌스 및 전문 지식을 제공합니다.

영국에 본사를 둔 RWS는 AIM에 상장되어 있습니다(RWS.L).

자세한 내용은 rws.com/kr에서 확인하세요.