TrainAI LLMベンチマーク調査で、Claude Sonnet、GPT、Gemini Proが合成データ生成のリーダーとして評価

TrainAIのLLM合成データ生成調査で、8言語にわたる6つのデータ生成タスクにおいて、代表的な9つの大規模言語モデルのベンチマーク評価を実施(人間の専門家による評価)

英国メイデンヘッド
4/29/2025 9:00:00 AM
TrainAIの最新のLLMベンチマーク調査によると、大規模言語モデル(LLM)と、その文章や会話を生成する能力については、Claude Sonnet、GPT、Gemini Proが上位となっています。 
 
クローズドクエスチョンによってパフォーマンスを評価する典型的な自動LLMベンチマークとは異なり、TrainAIのLLM合成データ生成調査では、人間の専門家がLLMの文章・会話生成能力をテストし、さまざまな言語での一般的な自然言語処理(NLP)スキルを評価しています。 
 
TrainAIのベンチマークプロジェクトでテクニカルソリューションリードを務めるTomáš Burkertは次のように述べています。「この調査を実施した理由は、今日の最先端のLLMを支える大企業で、最新モデルをトレーニングするためのデータが不足している[1] というレポートを読んだためです。OpenAI、Anthropic、Googleなどの企業は、AIモデルのトレーニングと微調整のために、(人間ではなく)LLM自体によって生成された合成データの使用を検討しています。当社としても、LLMを使用してAIのトレーニングデータや微調整データを生成することによる潜在的な影響を調査したいと考えました」
 
テストは9つのLLMを対象とし、慎重に選定された表現の異なる8つの言語で、複雑さの異なる6つのデータ生成タスクを実行しました。言語ごとに3人のネイティブスピーカーの言語スペシャリストを割り当て、LLMによって生成された出力を特定の基準(文法や自然さなど)に照らして評価しました。テスト全体で生成された文は38,000にのぼり、さらに115,000の注釈が提出され、世界中の27人のリンギストによって250,000件の5段階評価(1=非常に悪い、5=非常に良い)が提供されました。 
 
RWSのEnterprise Services部門PresidentであるVasagi Kothandapaniは、次のように述べています。「AIは人間向けに構築されているため、LLMのパフォーマンス評価はAIでなく人間が行うことにしました。当社の調査で分かったことは、言語やタスクをまたいだ合成データ生成において、突出して優れたモデルはないということです。ただし、言語能力、指示の遵守、創造性、速度、コストなどの主要な基準で、ほかよりも高いパフォーマンスを発揮したモデルがいくつかありました。この調査によって、特定のAIユースケースまたはアプリケーションに対して複数のLLMの長所と制約を評価することの重要性が裏付けられました。これを行うことで、真の価値を実現し、ビジネスにプラスの影響をもたらすことができるでしょう」
 

[1] Villalobos, P.、Ho, A.、Sevilla, J.、Besiroglu, T.、Heim, L.、Hobbhahn, M.(2024年)「Position: Will we run out of data? Limits of LLM scaling based on human-generated data.」機械学習研究の議事録235:49523-49544。参照:proceedings.mlr.press/v235/villalobos24a

  •    
編集者の方へ:
  • TrainAIのLLM合成データ生成調査レポートは、こちらからダウンロードできます。
  • RWSのTrainAIは、責任あるAIの原則に基づき、あらゆる言語や規模のあらゆる種類のAIデータに対して、完全なエンドツーエンドのデータ収集、注釈検証、生成AIトレーニングおよび微調整サービスを提供しています。 

RWSについて

RWSは、世界で最も信頼される企業向けAIを支える、グローバルなAIソリューション企業です。 


当社独自の「文化的インテリジェンスレイヤー」は、25万人におよぶデータスペシャリスト、文化と言語のエキスパート、分野に精通した専門家、そして45件以上の特許に支えられています。これにより、企業向けAIは文化への深い理解を備え、文脈に即した高い精度と安全性を実現し、すべてのインタラクションでブランドのトーン、コンテキスト、顧客価値を正確に反映できるようになります。


当社は、生成、変換、保護の各セグメントを通じて、インテリジェントコンテンツ、企業ナレッジ、大規模ローカリゼーション、IP保護を提供し、企業のグローバル成長を支援します。RWSは世界のトップブランド100社のうち80社以上から信頼できるパートナーとして選ばれ、組織がAIを安全かつ責任を持って大規模導入するために必要な信頼性、ガバナンス、専門知識を提供しています。 


RWSは英国に本社を置き、AIM市場に上場しています(RWS.L)。 


詳しくはこちらをご覧ください:rws.com/jp


© 2025 All rights reserved.ここに記載されている情報は、RWS Group*の機密情報および専有情報とみなされます。
* RWS Groupとは、RWS Holdings plcおよびその関連会社および子会社の代表を意味します。