每年1.4亿新生儿,哭声是唯一的语言,父母只能靠猜。一位新手父亲这样描述第一周:"她哭,我喂;又哭,我换;再哭,我完全不知道错在哪。"

这个困境催生了ROO——全球首个多模态婴儿哭声分析与回应系统,底层跑的是Gemma 4。

打开网易新闻 查看精彩图片

现有应用如CryAnalyzer、ChatterBaby、AYA,全是2019-2022年间用CNN分类器做的。App Store评论区一片哀嚎:"只会说饿了。"它们能检测哭声,但无法理解。

ROO做了三件竞品没做的事:同时分析声学特征和面部表情;用科学匹配的安抚音和母声回应;内置12首合成曲目+云端真实音乐,凌晨三点不用翻YouTube。

技术卡点在于Gemma 4的音频模型(E2B、E4B)专为端侧部署设计,公开推理接口尚未开放。开发者换了个思路:让模型"看见"哭声而非听见。

梅尔频谱图把音频转成二维图像——横轴时间、纵轴频率、亮度代表能量强度。ROO用Web Audio API在浏览器本地生成这张图,父母能实时看到宝宝的哭声模式。饥饿、疼痛、困倦,每种需求在频谱上呈现截然不同的视觉纹理。

前端用SvelteKit 5,托管在Cloudflare Pages;推理走Gemini API/OpenRouter;音频采集靠MediaRecorder,安抚播放用Web Audio API和Cloudflare R2存储;母声回应调用Web Speech API。会话历史存localStorage,服务端零日志。

目前部署在roo.risingranks.in,支持PWA安装。免费额度耗尽时分析会延迟10-20秒,UTC早间配额重置后恢复。