打开网易新闻 查看精彩图片

一个泰国农民询问作物补贴政策,一个尼日利亚母亲用约鲁巴语搜索疫苗接种时间表,一个巴西公民用葡萄牙语填写税务表格——他们面对的AI,运行能力只有英文用户的零头。不是智力不够,是模型根本没学过他们的语言。

这是当前AI行业最隐蔽的裂缝:超过92%的训练数据是英语,全球约7000种语言中,主流大模型真正支持的只有50种左右。这里说的"支持",仅仅是"能给出回答",不涉及准确度。剩下的语言,要么被低质量的机器翻译英语内容粗糙覆盖,要么完全缺席。

行业忙着庆祝"人类水平"的基准测试成绩,但这些基准测试 overwhelmingly 是英语的。对世界上大多数人来说,AI革命还没真正抵达——它卡在海关,等着一个翻译。

巴别塔的当代回声

巴别塔的当代回声

大约4000年前,巴比伦是地球上最国际化的城市。位于现代伊拉克境内,地处古代贸易路线的十字路口,阿卡德语、苏美尔语、阿拉姆语、埃兰语等数十种语言在此日常碰撞。商人、学者、外交官从美索不达米亚各地汇聚于此,这座城市之所以繁荣,正是因为它找到了跨越语言的桥梁——通过抄写员、翻译官,以及世界上第一批多语种图书馆。

《圣经》中巴别塔的故事背景就设在巴比伦,但讲法不同:上帝将人类分散到世界各地,混淆他们的语言,使他们无法再相互理解。这是一个关于沟通断裂的故事——共享的工程因语言不通而变得不可能。

我们正生活在一个奇怪的回声里。人类建造了史上最强大的推理机器,能写诗、证明定理、生成可运行的代码。但这些机器用英语思考。当世界其他地方试图与它们对话时,塔就崩塌了。不是智力不存在,而是语言屏障在信号抵达模型的推理核心之前,就已经将其腐蚀。

用英语问前沿大模型任何问题,你会得到 polished、准确、推理严密的回答。用泰语问同样的问题,结果往往像用漏勺喝汤——信息还在,但精华流走了。

打开网易新闻 查看精彩图片

数据荒漠里的语言

数据荒漠里的语言

大模型的能力边界由训练数据划定。英语在互联网上占据绝对优势:维基百科60%以上内容、学术论文90%以上、高质量书籍和代码库的主流语言。这种优势被直接继承到模型权重里。

低资源语言的困境是双重的。首先是数据量——斯瓦希里语、孟加拉语、泰卢固语等数亿人使用的语言,数字化文本可能只有英语的几千分之一。其次是数据质量——大量所谓"多语言"内容,实为英语材料的机器翻译,带着翻译腔和事实错误进入训练集。

一个模型在英语上学会的逻辑推理、事实核查、语境理解,在低资源语言上无法自动迁移。语言不只是词汇替换,是整套思维方式的载体。当模型用"英语思维"处理泰语输入,它其实在做一个损耗极大的转码游戏。

更隐蔽的伤害在于反馈循环。AI生成的低质量多语言内容又回流互联网,成为下一代模型的训练数据。劣币驱逐良币,数据荒漠逐渐扩大。

被折叠的用户体验

被折叠的用户体验

产品层面,这种不平等被界面设计巧妙掩盖。聊天机器人的输入框看起来对所有人平等开放,但背后的服务质量天差地别。

英文用户享受的是原生体验:复杂指令理解、多轮对话连贯、专业术语准确、文化语境恰当。非英语用户得到的是降级版本:简单查询尚可应付,一旦涉及专业领域、微妙表达或本地知识,模型就开始"幻觉"——用自信的语气编造答案。

打开网易新闻 查看精彩图片

这种降级对高教育程度、能切换英语的用户影响有限。但对真正的全球多数——那些只会本地语言、依赖AI获取关键信息的人——这是结构性排斥。他们被要求用第二甚至第三语言与机器交互,或者接受质量打折的服务。

技术民主化的承诺,在语言门槛前出现了分叉。

修补与重建

修补与重建

行业并非毫无作为。多语言预训练、跨语言迁移学习、特定语言微调——这些技术方向都在推进。一些开源项目专注收集低资源语言的本土语料,绕过英语中心的中介。

但商业激励结构是拧巴的。训练数据的获取成本、计算资源的分配、产品优先级的排序,都向高回报市场倾斜。英语用户付费意愿强、数据反馈丰富、品牌效应显著。边缘语言社区的投入产出比,在 spreadsheet 上很难好看。

更深层的张力在于:大模型的"通用智能"叙事,与语言特定性的现实之间的矛盾。我们倾向于认为推理能力是抽象的、可迁移的,但证据表明,语言深度嵌入认知过程。一个从未真正"浸泡"在某语言中的模型,对该语言使用者的思维方式始终是陌生的。

巴比伦的抄写员花了数千年积累多语言知识。我们似乎期待大模型用几十年走完这条路,却忘了它们的学习材料本身就不平衡。

下一次当你用中文向AI提问,得到看似流畅的回答时,可以多想一层:这个回答的"母语"是什么?它理解你的问题,还是仅仅在模拟理解?如果答案关乎你的健康、财务或法律权利,这种模拟的代价是什么?