TrainAI LLMベンチマーク調査で、Claude Sonnet、GPT、Gemini Proが合成データ生成のリーダーとして評価

TrainAIのLLM合成データ生成調査で、8言語にわたる6つのデータ生成タスクにおいて、代表的な9つの大規模言語モデルのベンチマーク評価を実施（人間の専門家による評価）

英国メイデンヘッド
4/29/2025 9:00:00 AM

TrainAIの最新のLLMベンチマーク調査によると、大規模言語モデル（LLM）と、その文章や会話を生成する能力については、Claude Sonnet、GPT、Gemini Proが上位となっています。

クローズドクエスチョンによってパフォーマンスを評価する典型的な自動LLMベンチマークとは異なり、TrainAIのLLM合成データ生成調査では、人間の専門家がLLMの文章・会話生成能力をテストし、さまざまな言語での一般的な自然言語処理（NLP）スキルを評価しています。

TrainAIのベンチマークプロジェクトでテクニカルソリューションリードを務めるTomáš Burkertは次のように述べています。「この調査を実施した理由は、今日の最先端のLLMを支える大企業で、最新モデルをトレーニングするためのデータが不足している^[1]というレポートを読んだためです。OpenAI、Anthropic、Googleなどの企業は、AIモデルのトレーニングと微調整のために、（人間ではなく）LLM自体によって生成された合成データの使用を検討しています。当社としても、LLMを使用してAIのトレーニングデータや微調整データを生成することによる潜在的な影響を調査したいと考えました」

テストは9つのLLMを対象とし、慎重に選定された表現の異なる8つの言語で、複雑さの異なる6つのデータ生成タスクを実行しました。言語ごとに3人のネイティブスピーカーの言語スペシャリストを割り当て、LLMによって生成された出力を特定の基準（文法や自然さなど）に照らして評価しました。テスト全体で生成された文は38,000にのぼり、さらに115,000の注釈が提出され、世界中の27人のリンギストによって250,000件の5段階評価（1=非常に悪い、5=非常に良い）が提供されました。

RWSのEnterprise Services部門PresidentであるVasagi Kothandapaniは、次のように述べています。「AIは人間向けに構築されているため、LLMのパフォーマンス評価はAIでなく人間が行うことにしました。当社の調査で分かったことは、言語やタスクをまたいだ合成データ生成において、突出して優れたモデルはないということです。ただし、言語能力、指示の遵守、創造性、速度、コストなどの主要な基準で、ほかよりも高いパフォーマンスを発揮したモデルがいくつかありました。この調査によって、特定のAIユースケースまたはアプリケーションに対して複数のLLMの長所と制約を評価することの重要性が裏付けられました。これを行うことで、真の価値を実現し、ビジネスにプラスの影響をもたらすことができるでしょう」

^[1]Villalobos, P.、Ho, A.、Sevilla, J.、Besiroglu, T.、Heim, L.、Hobbhahn, M.（2024年）「Position: Will we run out of data? Limits of LLM scaling based on human-generated data.」機械学習研究の議事録235:49523-49544。参照：proceedings.mlr.press/v235/villalobos24a

編集者の方へ：

TrainAIのLLM合成データ生成調査レポートは、こちらからダウンロードできます。
RWSのTrainAIは、責任あるAIの原則に基づき、あらゆる言語や規模のあらゆる種類のAIデータに対して、完全なエンドツーエンドのデータ収集、注釈検証、生成AIトレーニングおよび微調整サービスを提供しています。

RWSについて

RWSは、世界で最も信頼される企業向けAIを支える、グローバルなAIソリューション企業です。

当社独自の「文化的インテリジェンスレイヤー」は、25万人におよぶデータスペシャリスト、文化と言語のエキスパート、分野に精通した専門家、そして45件以上の特許に支えられています。これにより、企業向けAIは文化への深い理解を備え、文脈に即した高い精度と安全性を実現し、すべてのインタラクションでブランドのトーン、コンテキスト、顧客価値を正確に反映できるようになります。

当社は、生成、変換、保護の各セグメントを通じて、インテリジェントコンテンツ、企業ナレッジ、大規模ローカリゼーション、IP保護を提供し、企業のグローバル成長を支援します。RWSは世界のトップブランド100社のうち80社以上から信頼できるパートナーとして選ばれ、組織がAIを安全かつ責任を持って大規模導入するために必要な信頼性、ガバナンス、専門知識を提供しています。

RWSは英国に本社を置き、AIM市場に上場しています（RWS.L）。

詳しくはこちらをご覧ください：rws.com/jp