作者|毕乐天
来源|AI先锋官
如果你没有时间看,没关系,我制作了播客,在听的过程你可以忙些自己的事情
你有没有过这种经历?
对着智能音箱喊了半天,
它却一脸懵逼。
或者,
它只听到了你的话,
却对旁边烧开的水壶、窗外的雷声、甚至狗子的狂吠……
充耳不闻。
如果,你的AI不止能听懂“人话”,
还能听懂全世界的声音呢?
别怀疑,
这一天已经来了。
小米刚刚开源了一个大模型,
MiDashengLM-7B。
名字不重要,
重要的是,它给所有智能设备,
装上了一双超凡的耳朵。
这正是小米“人车家全生态”构想的核心:
让你的设备不再是被动地等你下命令,
而是主动地感知你周围的世界。
独门秘籍:凭啥这双AI耳朵这么神?
一句话:它不只是“听”,它在“理解”。
以前的语音助手:像个速记员
你手机里大部分的语音助手,
核心技术叫ASR(自动语音识别)。
你可以把它当成一个“法庭速记员”。
它的任务只有一个:
把你说的每个字,都变成文字。
旁边有音乐?忽略。
有噪音?可能会识别错。
至于你说话的语气、开不开心……
它根本不懂。
小米的新玩法:像个电影导演
小米的MiDashengLM,不想只当个速记员。
它的目标,是成为一名“电影导演”。
它会给听到的所有声音,
写一个内容丰富的“剧本”。
举个栗子:
一段音频里,有男人说话,还有车声。
速记员(旧AI)只会写:“一个男人在说话。”
导演(小米AI)会写:
“一个男人正在用英语谈论进城,伴随着车辆行驶的声音。”
再举个栗子:
一段音频里,有音乐和欢呼声。
速记员(旧AI)只会写:“有噪音和音乐。”
导演(小米AI)会写:
“人群在欢呼鼓掌,背景是电子音乐,合成器营造出一种黑暗又充满活力的氛围。”
看到没?
这就是差距。
它能理解声音里的所有元素,
把它们串联成一个完整的故事。
下面是视频演示
这对“顺风耳”,都有啥超能力?
它能干的事,多到你眼花。
️ 语言大师
不只懂中英文,
印尼、泰国、越南话,照样听得懂。
️ 声音侦探
能同时听见好几种声音。
“狗叫+汽车喇叭+下雨声”?
小菜一碟。
音乐品鉴家
它能听出乐器、风格,
甚至音乐想表达的情绪。
读心神探
通过你的声音,
猜出你的性别、口音,甚至心情。
超级知识王
你可以随便问它关于声音的问题。
比如:“刚才那段声音里,有小孩子吗?”
它会告诉你答案。
✍️ 金牌书记员
当然,把语音转成文字这种基本功,
它也做得又快又好。
未来已来:你将在哪里遇到它?
这不是科幻片。
小米已经把这些能力,
用在了超过30个智能功能上。
在你的车里(比如小米SU7)
超级哨兵模式:车停在外面,它24小时听着。一旦有砸玻璃、碰撞的声音,立刻给你手机报警。
更懂你的导航:就算你开着音乐、开着窗,它也能在嘈杂中听清你的指令。
随行外教:上下班路上练外语?它能实时纠正你的发音。
在你的家里
全天候保安:能听出烟雾报警、婴儿哭声、或者有人撬门的声音,然后通知你。
隔空操作:拍拍手开灯,打个响指关电视,懒人福音。
贴心管家:它听见厨房水开了,会主动问你:“水开了,要帮你关火吗?”。
它还能……
帮视障朋友“听”懂视频里的画面和氛围。
帮直播平台自动揪出不良声音。
帮音乐App给你推荐更合口味的歌。
最关键的是,它跑得飞快,还很省资源。
这意味着,这些超能力可以直接在你的手机、汽车、音箱上运行,不需要一直连着网。
终极对决:它和别的AI比怎么样?
不吹不黑,直接上数据。
小米把它和业界顶尖的几个模型比了一圈,
在22个公开测试里,刷新了一大堆记录。
有些地方,简直是碾压。
比如,在一个叫VGGSound的环境音识别测试里:
小米MiDashengLM,得分 52.11。
它的对手,得分 0.97。
你没看错,是五十多倍的差距。
当然,它也不是完美的。
它就像一个奥运十项全能冠军。
在“听懂所有声音”这件事上,它是王者。
但如果只比“英文语音转写”这一个单项,
可能某个只练这个的“百米飞人”会稍微快一点点 。
但别忘了,
它不仅更“懂”,还更“快”。
响应速度比别人快4倍,处理能力强20倍。
这意味着,你用起来会更爽,几乎没延迟。
所以呢?这跟我们有啥关系?
简单说三点:
你的设备,活了。
它们终于有了真正的“听觉”,变得更智能、更主动 。
它跑得动,用得起。
超高的效率,让这些强大的AI功能可以塞进你身边的每个设备里 。
最牛的是:它免费!
小米把模型、代码、数据,全部开源了。
这意味着,全世界的开发者都可以用它来创造更好玩、更有用的东西。
AI的未来,不会被几家大公司垄断 。
我们的设备,
先是学会了“看”(摄像头),
然后学会了“读”和“写”(语言模型)。
现在,
小米让它们,
真正学会了如何去“听”。
这个世界,
马上就要变得更有趣了。
想亲自体验一下?
交互式Demo
( https://huggingface.co/spaces/mispeech/MiDashengLM )
如果你是开发者:
GitHub项目主页:
https://github.com/xiaomi-research/dasheng-lm
模型下载:
https://huggingface.co/mispeech/midashenglm-7b
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。
往期文章回顾
热门跟贴