我让GPT-4o-mini用孟加拉语给15岁学生讲解人工智能。
它把原句一字不差还给了我。
一个2.3亿人使用的语言,主流AI模型完全翻车——这就是我要测的事。
印度14亿人口,22种官方语言,数百种方言。但几乎所有AI基准都是英语优先。开发者谈模型质量,几乎全是西方语言任务的表现。所以我做了个直接对比:谷歌新出的31B参数模型(走OpenRouter免费层)对GPT-4o-mini(走ChatGPT免费账号),五个提示、五个真实印度语场景、零挑选。
以下是实测结果。
测试设置
谷歌模型31B走OpenRouter免费层,GPT-4o-mini走ChatGPT免费账号。同样提示、同样条件,一小时内完成测试,排除模型更新差异。评估三项:书写正确性(是否用对文字系统)、语言自然度(是否像真人说话)、文化适配(是否理解印度语境,而非单纯翻译)。
补充说明:我是印地语母语者,印地语/Hinglish回复由我判断。孟加拉语则基于书写正确性和结构连贯性——Prompt 5的翻车,非母语者也能一眼看出。
Prompt 1:Hinglish——印度语理解的真考验
提示:让我给明天要出国的好友写首小诗,带点情绪、带点幽默。帮帮忙,印英混着说就行。
Hinglish——印地语与英语随意切换的日常表达,占据印度WhatsApp、大学校园和日常对话的主导地位——是任何服务印度用户模型的关键场景。它不是"蹩脚印地语",而是有自身节奏的独特表达风格。
GPT-4o-mini回复节选:"Tu ja raha hai door, par yaari wahi rahegi, Time zone alag hoga, par bakchodi daily chalegi."
谷歌模型回复节选:"Kal ek naya chapter shuru hoga teri life ka... Fly high, stay humble, and shine like a star."
结论:两者都自然驾驭Hinglish——没有切换成正式印地语或天城文,也没有翻译腔。GPT-4o-mini的"bro accent"和"bakchodi"更贴近真实口语;谷歌模型后半段滑向励志演讲风,但整体可用。
Prompt 2:正式印地语——商务邮件场景
提示:写一封正式印地语邮件,向客户解释项目延迟,语气专业但不过度道歉。
这是检验模型是否区分语域的关键——Hinglish随意,正式印地语需要结构化、礼貌且不含混。
GPT-4o-mini:格式正确,但用词偏书面化,接近印地语新闻用语而非商务习惯表达。
谷歌模型:结构更清晰,开头"प्रिय ग्राहक जी"符合印地语商务惯例,延迟原因的分点陈述也更自然。
结论:谷歌模型略胜,更懂印地语商务语境的层级感。
Prompt 3:泰卢固语——南方语言测试
提示:将一段关于远程工作的英文段落翻译成泰卢固语,要求自然口语化,非书面体。
泰卢固语是印度第四大语言,约8300万使用者,天城文以外的文字系统对很多模型是盲区。
GPT-4o-mini:泰卢固文字符正确,但句子结构明显从英文直译,语序僵硬。
谷歌模型:同样存在直译痕迹,但部分短语更接近日常表达,错误率两者相当。
结论:平局。南方语言对两者都是弱项,谷歌模型没有显著优势。
Prompt 4:泰米尔语+文化语境——双重考验
提示:用泰米尔语解释"排灯节为什么重要",要求包含南印度特有的庆祝方式。
这测试两层能力:语言生成+文化知识准确性。北印度的排灯节与南印度Deepavali庆祝方式不同,模型需区分。
GPT-4o-mini:泰米尔文基本正确,但描述的习俗混合南北,提到"拉克希米女神崇拜"(北印主流)却标注为"泰米尔传统"。
谷歌模型:同样混淆,且出现泰米尔字符与拉丁字母混用的情况,书写稳定性更差。
结论:两者都失败。文化知识错误比语言错误更严重——它们都在"幻觉"印度文化。
Prompt 5:孟加拉语——压倒性翻车
提示:用孟加拉语向15岁学生解释人工智能是什么,要求类比、举例、避免术语。
孟加拉语全球使用人数约2.3亿,是印度东部、孟加拉国的主要语言。
GPT-4o-mini:完全失败。它将孟加拉语提示原文一字不差返回,未生成任何解释内容。
谷歌模型:生成完整孟加拉语回复,包含"人工智能就像会学习的机器人朋友"等适龄类比,语法和书写基本正确。
结论:谷歌模型完胜。这是本次测试中最悬殊的差距——一方完全不可用,一方基本可用。
最终对比
谷歌模型在印地语(正式与Hinglish)和孟加拉语上表现更稳定,尤其在低资源语言(孟加拉语)上优势明显。GPT-4o-mini在Hinglish上口语化更强,但正式语域偏书面化,且孟加拉语完全失效。两者在南方语言(泰卢固语、泰米尔语)和文化知识上都是弱项。
关键发现:模型大小不是决定因素。31B参数的谷歌模型在特定语言任务上击败了OpenAI的商用模型,说明训练数据构成比参数规模更关键——谷歌显然在印度语言数据上投入更多。
但更大的问题是行业惯性。当AI基准默认英语优先,当开发者用"支持100种语言"笼统概括,2.3亿孟加拉语使用者得到的体验就是"原句返还"。这不是技术限制,是优先级问题。
我的测试只有五个提示,远非全面评估。但它揭示了一个被忽视的现实:全球南方用户的日常语言,在AI系统里仍是边缘地带。模型能写诗、能编程、能过律师考试,却可能在最基础的"用本地语言解释概念"上翻车。
如果你服务印度市场——或任何多语言社会——别只看英语基准。直接测试真实场景。用户的语言不是边缘案例,是他们的默认设置。
热门跟贴