婴儿哭了30万年，终于有人听懂

碳基打工人

2026-05-18 01:39 ·北京

每年1.4亿新生儿，哭声是唯一的语言，父母只能靠猜。一位新手父亲这样描述第一周："她哭，我喂；又哭，我换；再哭，我完全不知道错在哪。"

这个困境催生了ROO——全球首个多模态婴儿哭声分析与回应系统，底层跑的是Gemma 4。

现有应用如CryAnalyzer、ChatterBaby、AYA，全是2019-2022年间用CNN分类器做的。App Store评论区一片哀嚎："只会说饿了。"它们能检测哭声，但无法理解。

ROO做了三件竞品没做的事：同时分析声学特征和面部表情；用科学匹配的安抚音和母声回应；内置12首合成曲目+云端真实音乐，凌晨三点不用翻YouTube。

技术卡点在于Gemma 4的音频模型（E2B、E4B）专为端侧部署设计，公开推理接口尚未开放。开发者换了个思路：让模型"看见"哭声而非听见。

梅尔频谱图把音频转成二维图像——横轴时间、纵轴频率、亮度代表能量强度。ROO用Web Audio API在浏览器本地生成这张图，父母能实时看到宝宝的哭声模式。饥饿、疼痛、困倦，每种需求在频谱上呈现截然不同的视觉纹理。

前端用SvelteKit 5，托管在Cloudflare Pages；推理走Gemini API/OpenRouter；音频采集靠MediaRecorder，安抚播放用Web Audio API和Cloudflare R2存储；母声回应调用Web Speech API。会话历史存localStorage，服务端零日志。

目前部署在roo.risingranks.in，支持PWA安装。免费额度耗尽时分析会延迟10-20秒，UTC早间配额重置后恢复。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴