全球AI用户里,说英语的人不到15%,但模型训练数据里英语占比超过96%。这不是设计选择,是历史惯性堆出来的结果。

自然语言处理(NLP)模型有个简单粗暴的底层逻辑:喂得越多,吐得越准。英语用户在互联网上写了几十年的书、新闻、论坛帖子、代码注释,这些全成了模型的"主食"。其他语言?大多是零食级别的存在。

数据鸿沟:从"吃不饱"到"学不会"

数据鸿沟:从"吃不饱"到"学不会"

印度有14亿人口,印地语使用者超过6亿,但你在HuggingFace上搜印地语标注数据集,返回结果通常不到英语的1%。泰米尔语、孟加拉语、乌尔都语的情况更惨淡——不是完全空白,而是零散得像拼图缺了三分之二。

这种稀缺直接体现在模型表现上。同一个情感分析任务,英语准确率能冲到92%,切换到斯瓦希里语可能直接掉到61%。不是模型变笨了,是训练时压根没见过足够的"斯瓦希里语表达愤怒"的样本。

更隐蔽的伤害在代码混合场景。印度年轻人发推特,一句话里蹦出印地语、英语、网络缩写,还夹杂着本地俚语。模型看到这种"语言沙拉"直接懵圈——它学英语时没人教它"bro这party太lit了"该怎么拆解。

互联网的原罪:英语先占坑,后人难翻身

互联网的原罪:英语先占坑,后人难翻身

互联网早期就是美国国防部项目孵出来的。ARPANET(阿帕网)的节点分布在加州、麻省、犹他州,第一批网民用英语写邮件、发论文、建网站。这个先发优势像滚雪球,三十年后,英语内容在全球网页中占比仍超过60%。

模型训练讲究"互联网规模数据"。OpenAI爬Common Crawl(公共网络爬虫数据集),Google用自家搜索索引,本质上都是在打捞英语世界的数字遗迹。中文互联网内容量其实不小,但墙内墙外的数据孤岛让采集成本陡增。其他语言连"孤岛"都算不上,是散落的礁石。

学术圈也在强化这个循环。NLP顶会论文里,英语基准测试是默认配置。GLUE、SuperGLUE这些评测榜单,名字里就不藏着掖着——General Language Understanding Evaluation,"通用"指的是英语通用。模型开发者为了刷榜,自然把优化火力集中在英语场景。

标注数据的隐性成本:穷语言更穷

标注数据的隐性成本:穷语言更穷

无监督学习能消化海量未标注文本,但真要精准理解语义,还得靠人工标注。情感标签、命名实体、问答对——这些脏活累活需要母语者逐条处理。

英语标注的市场成熟到内卷:Mechanical Turk(亚马逊众包平台)上,美国标注员时薪压到几美元还有人抢单。换成索马里语?先找到能读写索马里语、会上网、愿意接外包的人,成本翻十倍不止。创业公司做不起,大厂觉得ROI(投资回报率)太低,结果就是没人做。

低资源语言的研究者常陷入悖论:想证明模型在自己语言上有效,需要先建数据集;想建数据集,需要先证明有商业价值拉投资。死锁。

技术路线的"英语舒适区"

技术路线的"英语舒适区"

Transformer架构(一种基于自注意力机制的神经网络结构)本身语言中立,但工程实践处处是英语的烙印。分词器(Tokenizer)用字节对编码(BPE),在英语上切得干净利落,遇到黏着语(比如土耳其语一个词能叠二十个后缀)直接切成稀碎。位置编码、注意力机制的超参数,全是在英语语料上调出来的最优解。

多语言模型像是妥协方案。BERT-multilingual、mBERT、XLM-R(跨语言语言模型),名字听着包容,实际是把100种语言塞进同一个向量空间,让它们在英语坐标系里找位置。小语种在这种"大杂烩"里经常被淹没——模型学到的是"这个词在英语里近似什么意思",而非它在本语言中的精确语义。

Google的PaLM 2(一种大规模语言模型)号称支持100+语言,但技术报告里坦承:低资源语言的表现"显著落后于英语"。翻译一下:能用,但别指望它写律所合同或者诊断报告。

破局尝试:从数据扶贫到技术 hack

破局尝试:从数据扶贫到技术 hack

学界和工业界并非坐视不管。数据增强、回译(Back-translation,用机器翻译生成伪平行语料)、跨语言迁移学习,这些技术都在试图给小语种"补课"。

非洲NLP社区Masakhane(科萨语"我们建造"的意思)是个典型案例。他们没有等大公司施舍,自己组织斯瓦西里语、约鲁巴语、豪萨语的标注项目,用有限资源训练基线模型。成果当然比不上GPT-4(一种大规模生成式预训练模型),但至少证明了:给数据,模型就能学;不给,神仙也难救。

合成数据是另一条路。用英语模型生成内容,再机器翻译成小语种,质量打折扣但量大管饱。Meta(原Facebook)的No Language Left Behind项目(NLLB,一种多语言翻译模型)走了这条路线,200种语言的翻译覆盖背后,是英语作为"中间枢纽"的隐性霸权。

更激进的思路是重新审视"数据效率"。人类学一门语言不需要读十亿本书,几千个精心设计的示例就能建立基础框架。提示学习(Prompt Learning)、上下文学习(In-Context Learning)这些技术,本质上是在教模型"用更少样本举一反三"。但这条路能走多远,现在还没人敢打包票。

商业现实的冷脸

商业现实的冷脸

技术理想主义撞上商业逻辑,往往后者赢。训练一个GPT-4级别的多语言模型,算力成本以亿美元计。英语市场(美国+英国+加拿大+澳大利亚)付费意愿最强,企业客户集中在硅谷和华尔街。资源倾斜不是阴谋,是算术。

中国是个例外。14亿人口+统一文字+封闭但庞大的互联网生态,让中文模型能独立成军。文心一言、通义千问、讯飞星火,性能追平GPT-3.5(一种大规模生成式预训练模型)不是难事。但这种"大国特权"复制不到越南语、缅甸语、尼泊尔语身上——人口不够,市场分散,数字化程度参差。

欧盟搞AI法案,要求模型披露训练数据语言分布,算是一种监管施压。但披露归披露,改变不了英语主导的现实。除非强制配额——"你模型必须在斯瓦西里语上达到X准确率才能上市"——否则大公司只会做表面功夫。

一个尼日利亚开发者告诉我,他用ChatGPT写代码注释,英语输出流畅自然;切换成约鲁巴语,模型开始胡编乱造语法结构。"它不是在说约鲁巴语,是在模仿约鲁巴语的口音说英语。"

这种"口音幻觉"比完全不懂更危险。用户以为获得了母语支持,实际拿到的是二手转译的残次品。医疗、法律、教育场景里,一个介词错误就能改变整句含义。

数据民主化的口号喊了很多年,但生产关系的重构比技术迭代慢十倍。当英语世界的用户已经用AI写小说、 debug代码、做心理咨询时,全球另外40亿非英语使用者还在等一个"勉强能用"的基线版本。

下一代模型会缩小这个差距吗?还是英语的中心地位会像美元在国际贸易中一样,成为AI时代的路径依赖?