RWS 旗下 TrainAI 研究指出,AI 在不同语言上的表现差距正在缩小——但不同版本模型间存在性能波动

研究结果表明,成功的企业 AI 战略需要持续的验证流程,这一流程须植根于高质量、蕴含文化细微差异的数据

英国,梅登黑德
4/13/2026 9:00:00 AM
Report on glass desk

全球 AI 解决方案公司 RWS (RWS.L) 今日公布了其最新的 TrainAI《多语言大语言模型合成数据生成研究》结果。研究显示,尽管主流大语言模型在全球不同语言之间的表现差距正在缩小,但不同代际模型之间的性能表现仍可能难以预测。 

该研究结果强调,企业需要由专家主导进行持续评估,以确保选择最适合自身特定业务需求的模型。

AI 在全球不同语言上的表现差距正在缩小,是这项研究最重要的发现之一。研究表明,像英语这样语料资源充足的语言与小语种之间的 AI 性能差距已显著缩小。在指出整个行业内 AI 语言能力持续提升这一趋势的同时(GPT、Claude Sonnet 等模型均取得显著进步),该研究特别强调了 Google Gemini Pro 的出色表现。该模型在卢旺达语的处理表现上获得了超过 4.5(满分 5 分)的高质量评分——而之前的模型版本在该语言上甚至连生成通顺的文本都十分困难。
Woman looking at digital screen
Vasagi Kothandapani

“这项研究预示着一个变革性时刻的来临——其目的并非取代人类的专业能力,而是借助恰当的技术将其提升到新的高度。随着 AI 在跨语言处理方面的能力日益强大,对深层文化智能及人工验证的需求空前关键。正因如此,RWS 正在将这些强大的技术融入内容工作流,并让专家参与其中,以此引领企业迈向这一全新现实图景,确保在全球范围内信息传达准确,引发文化共鸣,并实现品牌一致性。”

Vasagi Kothandapani,RWS 旗下 TrainAI 首席执行官
LLM chip
这项研究还揭示了一个企业需要特别注意的问题:AI 的进步并不必然是线性的。研究发现了一种“基准偏移”现象,即大语言模型的能力在不同版本之间可能存在意想不到的波动。例如,研究发现在几项内容生成任务中,最新版本的 GPT 表现反而落后于一些较小的模型,而其前代版本在这些任务上本具有竞争优势。
 
影响成本的核心指标(如分词器效率)在不同代际的模型之间也存在显著差异。研究表明,模型升级会以不可预测的方式重组其优势与劣势,这再次印证了:即便是熟悉的模型系列,在每次新版本发布时也都有必要对其进行重新评估。
Tomáš Burkert

“模型在实际应用中的价值,往往取决于那些具体却常被忽视的指标。以分词器 (tokenizer) 效率为例,在特定语言环境下,该因素可使某个模型的成本效益达到另一模型的 3.5 倍,其重要性不言而喻。成功 AI 战略的基石在于持续的验证流程,这一流程须植根于高质量、蕴含文化细微差异的 AI 数据,以确保企业所引入的并非任意一个模型,而是真正满足企业独特需求的最优模型。”

Tomáš Burkert,RWS 旗下 TrainAI 创新部门主管
研究总结指出,随着 AI 格局持续快速演变,企业不能仅仅依赖公开的性能排行榜,而是需在每次新模型发布时进行持续、独立的评估,以确保该模型仍然适合自身特定的 AI 应用场景。
 
点击此处下载完整的 TrainAI《多语言大语言模型合成数据生成研究 2.0》报告。
Desk with report and digital screen