海得拉巴的Avinash有两个女儿,一个三岁,一个一岁半。她们上的日托班教英语字母、印地语儿歌,就是不教泰卢固语——这对夫妻的母语。更尴尬的是,Avinash和妻子虽然流利地说着泰卢固语,却早已不会读写。当他向同事提起这事,好几个人点头:我们也是。
这就是Maatru的诞生背景。这个小型应用瞄准的正是这群"语言断层"的家长:能说不写,想教无力。孩子点击开始,听到一个泰卢固语字母的发音,从四个选项中选出对应的字符。五轮后弹出"做得好"卡片。家长则通过PIN码进入一个独立后台,阅读一段英文总结——今天练了哪些字母,哪些对了,哪些还需加强。
最初的设想更激进:让孩子用纸笔写出字母,拍照上传,Gemma 4实时评判。Avinash在动工前先做了一天可行性测试。结果令人清醒:他输入了一个印刷清晰的元音"అ",白底黑字,毫无干扰。Gemma 4 E4B本地运行,20次识别对了1次;31B版本通过OpenRouter调用,对了4次。模型把同一个字符分别认成了"౦"和"ని",连最基础的印刷体都频频翻车。
"视觉能力对印度语系文字还不够可靠,至少不足以支撑识字工具的核心功能。"Avinash在复盘时写道。他果断放弃了手写识别路线。
最终落地的架构做了明确分工:孩子交互环节完全离线,零模型调用;Gemma 4只干两件事——生成课程内容的纯文本,以及基于学习数据做教学决策。家长每次打开后台时,模型才运行一次,输出那段英文反馈和背后的教学逻辑。
这个案例的启示很实在:大模型的能力边界不是纸面参数决定的,而是具体场景测出来的。泰卢固语有56个字母,全球使用人口近一亿,却在多模态基准测试的盲区里。Avinash没有等模型变强,而是把Gemma 4放在它确实能胜任的位置——文本生成与策略规划,让产品先跑起来。
技术选型上,Maatru的agentic架构也值得关注。Gemma 4在这里扮演的是"规划者"角色,而非端到端的黑箱。孩子的学习轨迹被结构化为状态,模型据此决定下一组练习内容,而非实时干预每一次交互。这种"重决策、轻感知"的设计,恰恰绕开了当前视觉能力的短板。
对于更多非英语市场的开发者,Maatru提供了一个可复用的思路:先暴力测试模型在你目标语言上的真实表现,再倒推产品形态。而不是反过来,拿着Demo视频想象应用场景。
热门跟贴