英语霸占AI模型96%算力，小语种用户成"二等公民"|ai模型|印地语|小语种|翻译|英语|语料

全球AI用户里，说英语的人不到15%，但模型训练数据里英语占比超过96%。这不是设计选择，是历史惯性堆出来的结果。

自然语言处理（NLP）模型有个简单粗暴的底层逻辑：喂得越多，吐得越准。英语用户在互联网上写了几十年的书、新闻、论坛帖子、代码注释，这些全成了模型的"主食"。其他语言？大多是零食级别的存在。

数据鸿沟：从"吃不饱"到"学不会"

印度有14亿人口，印地语使用者超过6亿，但你在HuggingFace上搜印地语标注数据集，返回结果通常不到英语的1%。泰米尔语、孟加拉语、乌尔都语的情况更惨淡——不是完全空白，而是零散得像拼图缺了三分之二。

这种稀缺直接体现在模型表现上。同一个情感分析任务，英语准确率能冲到92%，切换到斯瓦希里语可能直接掉到61%。不是模型变笨了，是训练时压根没见过足够的"斯瓦希里语表达愤怒"的样本。

更隐蔽的伤害在代码混合场景。印度年轻人发推特，一句话里蹦出印地语、英语、网络缩写，还夹杂着本地俚语。模型看到这种"语言沙拉"直接懵圈——它学英语时没人教它"bro这party太lit了"该怎么拆解。

互联网的原罪：英语先占坑，后人难翻身

互联网早期就是美国国防部项目孵出来的。ARPANET（阿帕网）的节点分布在加州、麻省、犹他州，第一批网民用英语写邮件、发论文、建网站。这个先发优势像滚雪球，三十年后，英语内容在全球网页中占比仍超过60%。

模型训练讲究"互联网规模数据"。OpenAI爬Common Crawl（公共网络爬虫数据集），Google用自家搜索索引，本质上都是在打捞英语世界的数字遗迹。中文互联网内容量其实不小，但墙内墙外的数据孤岛让采集成本陡增。其他语言连"孤岛"都算不上，是散落的礁石。

学术圈也在强化这个循环。NLP顶会论文里，英语基准测试是默认配置。GLUE、SuperGLUE这些评测榜单，名字里就不藏着掖着——General Language Understanding Evaluation，"通用"指的是英语通用。模型开发者为了刷榜，自然把优化火力集中在英语场景。

标注数据的隐性成本：穷语言更穷

无监督学习能消化海量未标注文本，但真要精准理解语义，还得靠人工标注。情感标签、命名实体、问答对——这些脏活累活需要母语者逐条处理。

英语标注的市场成熟到内卷：Mechanical Turk（亚马逊众包平台）上，美国标注员时薪压到几美元还有人抢单。换成索马里语？先找到能读写索马里语、会上网、愿意接外包的人，成本翻十倍不止。创业公司做不起，大厂觉得ROI（投资回报率）太低，结果就是没人做。

低资源语言的研究者常陷入悖论：想证明模型在自己语言上有效，需要先建数据集；想建数据集，需要先证明有商业价值拉投资。死锁。

技术路线的"英语舒适区"

Transformer架构（一种基于自注意力机制的神经网络结构）本身语言中立，但工程实践处处是英语的烙印。分词器（Tokenizer）用字节对编码（BPE），在英语上切得干净利落，遇到黏着语（比如土耳其语一个词能叠二十个后缀）直接切成稀碎。位置编码、注意力机制的超参数，全是在英语语料上调出来的最优解。

多语言模型像是妥协方案。BERT-multilingual、mBERT、XLM-R（跨语言语言模型），名字听着包容，实际是把100种语言塞进同一个向量空间，让它们在英语坐标系里找位置。小语种在这种"大杂烩"里经常被淹没——模型学到的是"这个词在英语里近似什么意思"，而非它在本语言中的精确语义。

Google的PaLM 2（一种大规模语言模型）号称支持100+语言，但技术报告里坦承：低资源语言的表现"显著落后于英语"。翻译一下：能用，但别指望它写律所合同或者诊断报告。