全球AI模型回答"最佳早餐"时推荐牛油果吐司,被14亿印度人集体无视——这不是口味差异,是文化断层。过去两年,生成式AI(Generative AI)席卷全球,但对普通印度用户而言,这套系统更像一位"外国客人":听不懂方言,读不懂本地传统,连"正义"这个概念都只会引用西方法律判例。

1000亿卢比的赌注:从消费者到创造者

1000亿卢比的赌注:从消费者到创造者

印度政府正在改写剧本。IndiaAI Mission获批1037.2亿卢比(约12.4亿美元)拨款,核心目标只有一个:让"巴拉特"(Bharat,印度本土自称)拥有属于自己的大语言模型(LLM)。这笔投入标志着战略转向——不再满足于购买西方AI服务,要亲手建造"主权技术栈"。

所谓"主权AI",本质是数据主权的延伸。当前主流模型的训练数据高度依赖英文互联网,印度22种官方语言、数百种方言几乎被排除在语料库之外。结果是:一个用印地语询问农业政策的农民,得到的回答可能比牛油果吐司更离谱。

技术殖民的隐形代价

技术殖民的隐形代价

西方AI的偏见不只是语言层面的。当模型用加州价值观处理种姓制度、宗教习俗或土地纠纷时,输出结果往往带着预设框架——不是解答问题,而是重新定义问题。印度AI任务组内部文件将这种困境描述为"智能依赖":看似免费使用最先进工具,实则让渡了定义现实的话语权。

1037.2亿卢比要买的不是算力堆砌,是语料主权。政府计划强制要求公共数据本地化,同时资助本土团队开发多语言模型。一个细节值得玩味:项目预算特意预留了"方言采集"专项,目标覆盖目前互联网文本中占比不足0.1%的语言变体。

主权AI的悖论

主权AI的悖论

但"去殖民化"叙事本身也有张力。印度科技精英阶层恰恰是全球AI供应链的重要参与者——硅谷各大实验室里印度裔研究员的密度,可能高于班加罗尔本地。用西方训练的开源框架,造"反西方"的AI,这套操作算不算另一种形式的依赖?

更现实的挑战是时间窗口。GPT-4级别的模型训练成本已降至两年前的十分之一,印度入场时,技术迭代曲线正在加速变陡。主权AI不是造一座桥,是在河流中央造一艘船——水流速度决定了你有多少犯错空间。

一位参与项目评审的工程师在闭门会议上说:「我们不是在追赶OpenAI,是在追赶印度自己的多样性。」

当第一个能用博杰普尔语(Bhojpuri,印度东部约5000万人使用)流畅对话的模型上线时,它会选择回答"最好早餐"——还是直接反问"谁定义的'最好'"?