TrainAI LLM 评测研究将 Claude Sonnet、GPT 和 Gemini Pro 评为合成数据生成领域的领军者

TrainAI 的 LLM 合成数据生成研究邀请人类专家评估员对九款广受欢迎的大语言模型进行了评测，涉及八种语言、六种数据生成任务。

英国，梅登黑德
4/29/2025 9:00:00 AM

根据 TrainAI 最新的 LLM 评测研究指出，在大语言模型 (LLM) 生成句子与对话的能力这一维度上，Claude Sonnet、GPT 以及 Gemini Pro 脱颖而出。

传统的自动化 LLM 评测通常评估模型在回答封闭式问题时的表现。与此不同，TrainAI 的 LLM 合成数据生成研究邀请人类专家评估员参与其中，测试广受欢迎的 LLM 生成句子与对话的能力，进而评估它们在多种语言中所展现出的通用自然语言处理 (NLP) 技能。

负责该评测项目的 TrainAI 技术解决方案负责人 Tomáš Burkert 解释道：“我们之所以进行这项研究，是因为有报告表明，当前先进 LLM 背后的大型企业正面临数据瓶颈^[1]，难以获得足够的数据来训练最新模型。OpenAI、Anthropic 和 Google 等公司正在探索如何使用 LLM 本身（而不是人类）生成的合成数据来训练和微调 AI 模型。我们希望探索使用 LLM 生成 AI 训练数据和微调数据的潜在影响。”

TrainAI 对九款 LLM 进行了测试，涵盖六种复杂程度各不相同的数据生成任务，涉及八种普及度各不相同的精心挑选的语言。针对每种语言，由三名以该语言为母语的语言服务专家根据特定标准（诸如语法正确性和自然流畅度等）对 LLM 生成的输出进行评估。测试总共生成了 38,000 个句子，全球 27 名语言服务专家提交了 115,000 条注释，并提供了 250,000 个评分（评分范围为 1 分“非常差”至 5 分“非常好”）。

RWS 企业服务总裁 Vasagi Kothandapani 表示：“由于 AI 是为服务人类而诞生的，因此我们选择由人类而非 AI 来评估 LLM 的表现。我们的研究发现，在不同的语言和合成数据生成任务中，没有哪一个模型在所有方面都能胜出，但在语言熟练度、指令遵从度、创意、速度和成本等关键指标上，确实有些模型表现更优。这项研究强调了，在特定的 AI 使用案例或应用场景中评估多种 LLM 的优势与局限很重要。只有这样，这些模型才能真正实现其价值，并带来积极的业务影响。”

^[1]Villalobos, P., Ho, A., Sevilla, J., Besiroglu, T., Heim, L. and Hobbhahn, M. (2024). 立场：我们会耗尽数据吗？基于人类生成的数据扩展 LLM 的局限性。 Proceedings of Machine Learning Research 235:49523-49544. 可查阅 proceedings.mlr.press/v235/villalobos24a

编辑注意事项：

下载 TrainAI 的 LLM 合成数据生成研究报告。
RWS 的 TrainAI 遵循负责任的 AI 原则，提供完整的端到端数据收集、标注验证和生成式 AI 训练和微调服务，涵盖各类 AI 数据，无论是何种语言或规模的项目，都能应对自如。

RWS 简介

RWS 是一家全球化的人工智能解决方案公司，致力于为全球值得信赖的企业级人工智能提供支持。

依托 25 万名数据专家、语言文化顾问与领域资深专业人士，以及逾 45 项专利技术，我们专有的 Cultural Intelligence Layer 赋予企业级人工智能文化感知力、情境精准性与安全可靠性，确保每一次交互都能准确传递品牌调性、情境内涵与客户价值。

通过“智能生成（Generate）、智联变革（Transform）与智慧守护（Protect） ”三大业务板块，我们提供智能内容生成、企业知识资产管理、大规模本地化解决方案和知识产权保护服务，助力企业实现全球增长。RWS 深受全球百强品牌中逾 80 家品牌的信赖，为企业安全、负责任地大规模部署人工智能提供所需的可靠保障、治理框架与专业支持。

RWS 总部位于英国，在另类投资市场 (AIM) 公开上市，股票代码为 RWS.L。

如需了解更多信息，请访问 rws.com/cn。