TrainAI LLM 评测研究将 Claude Sonnet、GPT 和 Gemini Pro 评为合成数据生成领域的领军者

TrainAI 的 LLM 合成数据生成研究邀请人类专家评估员对九款广受欢迎的大语言模型进行了评测,涉及八种语言、六种数据生成任务。

英国,梅登黑德
4/29/2025 9:00:00 AM
根据 TrainAI 最新的 LLM 评测研究指出,在大语言模型 (LLM) 生成句子与对话的能力这一维度上,Claude Sonnet、GPT 以及 Gemini Pro 脱颖而出。 
 
传统的自动化 LLM 评测通常评估模型在回答封闭式问题时的表现。与此不同,TrainAI 的 LLM 合成数据生成研究邀请人类专家评估员参与其中,测试广受欢迎的 LLM 生成句子与对话的能力,进而评估它们在多种语言中所展现出的通用自然语言处理 (NLP) 技能。 
 
负责该评测项目的 TrainAI 技术解决方案负责人 Tomáš Burkert 解释道:“我们之所以进行这项研究,是因为有报告表明,当前先进 LLM 背后的大型企业正面临数据瓶颈[1],难以获得足够的数据来训练最新模型。OpenAI、Anthropic 和 Google 等公司正在探索如何使用 LLM 本身(而不是人类)生成的合成数据来训练和微调 AI 模型。我们希望探索使用 LLM 生成 AI 训练数据和微调数据的潜在影响。”
 
TrainAI 对九款 LLM 进行了测试,涵盖六种复杂程度各不相同的数据生成任务,涉及八种普及度各不相同的精心挑选的语言。针对每种语言,由三名以该语言为母语的语言服务专家根据特定标准(诸如语法正确性和自然流畅度等)对 LLM 生成的输出进行评估。测试总共生成了 38,000 个句子,全球 27 名语言服务专家提交了 115,000 条注释,并提供了 250,000 个评分(评分范围为 1 分“非常差”至 5 分“非常好”)。 
 
RWS 企业服务总裁 Vasagi Kothandapani 表示:“由于 AI 是为服务人类而诞生的,因此我们选择由人类而非 AI 来评估 LLM 的表现。我们的研究发现,在不同的语言和合成数据生成任务中,没有哪一个模型在所有方面都能胜出,但在语言熟练度、指令遵从度、创意、速度和成本等关键指标上,确实有些模型表现更优。这项研究强调了,在特定的 AI 使用案例或应用场景中评估多种 LLM 的优势与局限很重要。只有这样,这些模型才能真正实现其价值,并带来积极的业务影响。”
 

[1] Villalobos, P., Ho, A., Sevilla, J., Besiroglu, T., Heim, L. and Hobbhahn, M. (2024). 立场:我们会耗尽数据吗?基于人类生成的数据扩展 LLM 的局限性。 Proceedings of Machine Learning Research 235:49523-49544. 可查阅 proceedings.mlr.press/v235/villalobos24a

  •    
编辑注意事项:
  • 下载 TrainAI 的 LLM 合成数据生成研究报告。
  • RWS 的 TrainAI 遵循负责任的 AI 原则,提供完整的端到端数据收集、标注验证和生成式 AI 训练和微调服务,涵盖各类 AI 数据,无论是何种语言或规模的项目,都能应对自如。 

RWS 简介

RWS 是一家由技术驱动、专家赋能的内容解决方案提供商。通过助力企业实现无碍沟通,我们可充分提升创意、数据和内容的价值,推动企业讯息畅达全球。


我们凭借专有技术、45 项以上的 AI 专利及行业专家团队,助力企业加速创意的市场推广,构建跨越国界与文化的深度合作关系,从容开拓新市场,从而拓展商业版图,联接全球机遇。


正因如此,全球百强品牌中有超过 80 家选择与 RWS 合作,以推动创新进程、优化决策制定和重塑品牌体验。


我们在世界各地设有 60 余处服务网点,业务遍及五大洲,为各行各业的客户赋能。RWS 成立于 1958 年,秉承创新传统延续至今,总部位于英国,在伦敦证券交易所监管的 AIM 市场公开上市 (RWS.L)。  


如需了解更多信息,请访问  rws.com/cn


© 2025 保留所有权利。此处包含的信息被视为 RWS 集团*的机密信息和专有信息。
*RWS 集团是指 RWS Holdings plc、其附属公司、子公司及其代表。