92%训练数据是英语，大模型把40亿人挡在门外

硬核玩家2哈

2026-03-31 07:16 ·北京

一个泰国农民询问作物补贴政策，一个尼日利亚母亲用约鲁巴语搜索疫苗接种时间表，一个巴西公民用葡萄牙语填写税务表格——他们面对的AI，运行能力只有英文用户的零头。不是智力不够，是模型根本没学过他们的语言。

这是当前AI行业最隐蔽的裂缝：超过92%的训练数据是英语，全球约7000种语言中，主流大模型真正支持的只有50种左右。这里说的"支持"，仅仅是"能给出回答"，不涉及准确度。剩下的语言，要么被低质量的机器翻译英语内容粗糙覆盖，要么完全缺席。

行业忙着庆祝"人类水平"的基准测试成绩，但这些基准测试 overwhelmingly 是英语的。对世界上大多数人来说，AI革命还没真正抵达——它卡在海关，等着一个翻译。

巴别塔的当代回声

巴别塔的当代回声

大约4000年前，巴比伦是地球上最国际化的城市。位于现代伊拉克境内，地处古代贸易路线的十字路口，阿卡德语、苏美尔语、阿拉姆语、埃兰语等数十种语言在此日常碰撞。商人、学者、外交官从美索不达米亚各地汇聚于此，这座城市之所以繁荣，正是因为它找到了跨越语言的桥梁——通过抄写员、翻译官，以及世界上第一批多语种图书馆。

《圣经》中巴别塔的故事背景就设在巴比伦，但讲法不同：上帝将人类分散到世界各地，混淆他们的语言，使他们无法再相互理解。这是一个关于沟通断裂的故事——共享的工程因语言不通而变得不可能。

我们正生活在一个奇怪的回声里。人类建造了史上最强大的推理机器，能写诗、证明定理、生成可运行的代码。但这些机器用英语思考。当世界其他地方试图与它们对话时，塔就崩塌了。不是智力不存在，而是语言屏障在信号抵达模型的推理核心之前，就已经将其腐蚀。

用英语问前沿大模型任何问题，你会得到 polished、准确、推理严密的回答。用泰语问同样的问题，结果往往像用漏勺喝汤——信息还在，但精华流走了。

数据荒漠里的语言

数据荒漠里的语言

大模型的能力边界由训练数据划定。英语在互联网上占据绝对优势：维基百科60%以上内容、学术论文90%以上、高质量书籍和代码库的主流语言。这种优势被直接继承到模型权重里。

低资源语言的困境是双重的。首先是数据量——斯瓦希里语、孟加拉语、泰卢固语等数亿人使用的语言，数字化文本可能只有英语的几千分之一。其次是数据质量——大量所谓"多语言"内容，实为英语材料的机器翻译，带着翻译腔和事实错误进入训练集。

一个模型在英语上学会的逻辑推理、事实核查、语境理解，在低资源语言上无法自动迁移。语言不只是词汇替换，是整套思维方式的载体。当模型用"英语思维"处理泰语输入，它其实在做一个损耗极大的转码游戏。

更隐蔽的伤害在于反馈循环。AI生成的低质量多语言内容又回流互联网，成为下一代模型的训练数据。劣币驱逐良币，数据荒漠逐渐扩大。

被折叠的用户体验

被折叠的用户体验

产品层面，这种不平等被界面设计巧妙掩盖。聊天机器人的输入框看起来对所有人平等开放，但背后的服务质量天差地别。

英文用户享受的是原生体验：复杂指令理解、多轮对话连贯、专业术语准确、文化语境恰当。非英语用户得到的是降级版本：简单查询尚可应付，一旦涉及专业领域、微妙表达或本地知识，模型就开始"幻觉"——用自信的语气编造答案。

这种降级对高教育程度、能切换英语的用户影响有限。但对真正的全球多数——那些只会本地语言、依赖AI获取关键信息的人——这是结构性排斥。他们被要求用第二甚至第三语言与机器交互，或者接受质量打折的服务。

技术民主化的承诺，在语言门槛前出现了分叉。

修补与重建

修补与重建

行业并非毫无作为。多语言预训练、跨语言迁移学习、特定语言微调——这些技术方向都在推进。一些开源项目专注收集低资源语言的本土语料，绕过英语中心的中介。

但商业激励结构是拧巴的。训练数据的获取成本、计算资源的分配、产品优先级的排序，都向高回报市场倾斜。英语用户付费意愿强、数据反馈丰富、品牌效应显著。边缘语言社区的投入产出比，在 spreadsheet 上很难好看。

更深层的张力在于：大模型的"通用智能"叙事，与语言特定性的现实之间的矛盾。我们倾向于认为推理能力是抽象的、可迁移的，但证据表明，语言深度嵌入认知过程。一个从未真正"浸泡"在某语言中的模型，对该语言使用者的思维方式始终是陌生的。

巴比伦的抄写员花了数千年积累多语言知识。我们似乎期待大模型用几十年走完这条路，却忘了它们的学习材料本身就不平衡。

下一次当你用中文向AI提问，得到看似流畅的回答时，可以多想一层：这个回答的"母语"是什么？它理解你的问题，还是仅仅在模拟理解？如果答案关乎你的健康、财务或法律权利，这种模拟的代价是什么？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴