RWS 旗下 TrainAI 研究指出，AI 在不同语言上的表现差距正在缩小——但不同版本模型间存在性能波动

研究结果表明，成功的企业 AI 战略需要持续的验证流程，这一流程须植根于高质量、蕴含文化细微差异的数据

英国，梅登黑德
4/13/2026 9:00:00 AM

全球 AI 解决方案公司 RWS (RWS.L) 今日公布了其最新的 TrainAI《多语言大语言模型合成数据生成研究》结果。研究显示，尽管主流大语言模型在全球不同语言之间的表现差距正在缩小，但不同代际模型之间的性能表现仍可能难以预测。

该研究结果强调，企业需要由专家主导进行持续评估，以确保选择最适合自身特定业务需求的模型。

AI 在全球不同语言上的表现差距正在缩小，是这项研究最重要的发现之一。研究表明，像英语这样语料资源充足的语言与小语种之间的 AI 性能差距已显著缩小。在指出整个行业内 AI 语言能力持续提升这一趋势的同时（GPT、Claude Sonnet 等模型均取得显著进步），该研究特别强调了 Google Gemini Pro 的出色表现。该模型在卢旺达语的处理表现上获得了超过 4.5（满分 5 分）的高质量评分——而之前的模型版本在该语言上甚至连生成通顺的文本都十分困难。

“这项研究预示着一个变革性时刻的来临——其目的并非取代人类的专业能力，而是借助恰当的技术将其提升到新的高度。随着 AI 在跨语言处理方面的能力日益强大，对深层文化智能及人工验证的需求空前关键。正因如此，RWS 正在将这些强大的技术融入内容工作流，并让专家参与其中，以此引领企业迈向这一全新现实图景，确保在全球范围内信息传达准确，引发文化共鸣，并实现品牌一致性。”

Vasagi Kothandapani，RWS 旗下 TrainAI 首席执行官

这项研究还揭示了一个企业需要特别注意的问题：AI 的进步并不必然是线性的。研究发现了一种“基准偏移”现象，即大语言模型的能力在不同版本之间可能存在意想不到的波动。例如，研究发现在几项内容生成任务中，最新版本的 GPT 表现反而落后于一些较小的模型，而其前代版本在这些任务上本具有竞争优势。

影响成本的核心指标（如分词器效率）在不同代际的模型之间也存在显著差异。研究表明，模型升级会以不可预测的方式重组其优势与劣势，这再次印证了：即便是熟悉的模型系列，在每次新版本发布时也都有必要对其进行重新评估。

“模型在实际应用中的价值，往往取决于那些具体却常被忽视的指标。以分词器 (tokenizer) 效率为例，在特定语言环境下，该因素可使某个模型的成本效益达到另一模型的 3.5 倍，其重要性不言而喻。成功 AI 战略的基石在于持续的验证流程，这一流程须植根于高质量、蕴含文化细微差异的 AI 数据，以确保企业所引入的并非任意一个模型，而是真正满足企业独特需求的最优模型。”

Tomáš Burkert，RWS 旗下 TrainAI 创新部门主管

研究总结指出，随着 AI 格局持续快速演变，企业不能仅仅依赖公开的性能排行榜，而是需在每次新模型发布时进行持续、独立的评估，以确保该模型仍然适合自身特定的 AI 应用场景。

点击此处下载完整的 TrainAI《多语言大语言模型合成数据生成研究 2.0》报告。