作者|毕乐天

来源|AI先锋官

如果你没有时间看,没关系,我制作了播客,在听的过程你可以忙些自己的事情

你有没有过这种经历?

对着智能音箱喊了半天,

它却一脸懵逼。

或者,

它只听到了你的话,

却对旁边烧开的水壶、窗外的雷声、甚至狗子的狂吠……

充耳不闻。

如果,你的AI不止能听懂“人话”,

还能听懂全世界的声音呢?

别怀疑,

这一天已经来了。

小米刚刚开源了一个大模型,

MiDashengLM-7B。

名字不重要,

重要的是,它给所有智能设备,

装上了一双超凡的耳朵。

这正是小米“人车家全生态”构想的核心:

让你的设备不再是被动地等你下命令,

而是主动地感知你周围的世界。

独门秘籍:凭啥这双AI耳朵这么神?

一句话:它不只是“听”,它在“理解”。

以前的语音助手:像个速记员

你手机里大部分的语音助手,

核心技术叫ASR(自动语音识别)。

你可以把它当成一个“法庭速记员”。

它的任务只有一个:

把你说的每个字,都变成文字。

旁边有音乐?忽略。

有噪音?可能会识别错。

至于你说话的语气、开不开心……

它根本不懂。

小米的新玩法:像个电影导演

小米的MiDashengLM,不想只当个速记员。

它的目标,是成为一名“电影导演”。

它会给听到的所有声音,

写一个内容丰富的“剧本”。

举个栗子:

一段音频里,有男人说话,还有车声。

  • 速记员(旧AI)只会写:“一个男人在说话。”

  • 导演(小米AI)会写:“一个男人正在用英语谈论进城,伴随着车辆行驶的声音。”

再举个栗子

一段音频里,有音乐和欢呼声。

  • 速记员(旧AI)只会写:“有噪音和音乐。”

  • 导演(小米AI)会写:“人群在欢呼鼓掌,背景是电子音乐,合成器营造出一种黑暗又充满活力的氛围。”

看到没?

这就是差距。

它能理解声音里的所有元素,

把它们串联成一个完整的故事。

下面是视频演示

 小米开源“顺风耳”模型,52倍碾压对手,你的手机/汽车要成精
打开网易新闻 查看更多视频
小米开源“顺风耳”模型,52倍碾压对手,你的手机/汽车要成精

这对“顺风耳”,都有啥超能力?

它能干的事,多到你眼花。

️ 语言大师

不只懂中英文,

印尼、泰国、越南话,照样听得懂。

️ 声音侦探

能同时听见好几种声音。

“狗叫+汽车喇叭+下雨声”?

小菜一碟。

音乐品鉴家

它能听出乐器、风格,

甚至音乐想表达的情绪。

读心神探

通过你的声音,

猜出你的性别、口音,甚至心情。

超级知识王

你可以随便问它关于声音的问题。

比如:“刚才那段声音里,有小孩子吗?”

它会告诉你答案。

✍️ 金牌书记员

当然,把语音转成文字这种基本功,

它也做得又快又好。

未来已来:你将在哪里遇到它?

这不是科幻片。

小米已经把这些能力,

用在了超过30个智能功能上。

在你的车里(比如小米SU7)

  • 超级哨兵模式:车停在外面,它24小时听着。一旦有砸玻璃、碰撞的声音,立刻给你手机报警。

  • 更懂你的导航:就算你开着音乐、开着窗,它也能在嘈杂中听清你的指令。

  • 随行外教:上下班路上练外语?它能实时纠正你的发音。

在你的家里

  • 全天候保安:能听出烟雾报警、婴儿哭声、或者有人撬门的声音,然后通知你。

  • 隔空操作:拍拍手开灯,打个响指关电视,懒人福音。

  • 贴心管家:它听见厨房水开了,会主动问你:“水开了,要帮你关火吗?”。

它还能……

  • 帮视障朋友“听”懂视频里的画面和氛围。

  • 帮直播平台自动揪出不良声音。

  • 帮音乐App给你推荐更合口味的歌。

最关键的是,它跑得飞快,还很省资源。

这意味着,这些超能力可以直接在你的手机、汽车、音箱上运行,不需要一直连着网。

终极对决:它和别的AI比怎么样?

不吹不黑,直接上数据。

小米把它和业界顶尖的几个模型比了一圈,

在22个公开测试里,刷新了一大堆记录。

有些地方,简直是碾压。

比如,在一个叫VGGSound的环境音识别测试里:

小米MiDashengLM,得分 52.11。

它的对手,得分 0.97。

你没看错,是五十多倍的差距。

当然,它也不是完美的。

它就像一个奥运十项全能冠军。

在“听懂所有声音”这件事上,它是王者。

但如果只比“英文语音转写”这一个单项,

可能某个只练这个的“百米飞人”会稍微快一点点 。

但别忘了,

它不仅更“懂”,还更“快”。

响应速度比别人快4倍,处理能力强20倍。

这意味着,你用起来会更爽,几乎没延迟。

所以呢?这跟我们有啥关系?

简单说三点:

  • 你的设备,活了。

    它们终于有了真正的“听觉”,变得更智能、更主动 。

  • 它跑得动,用得起。

    超高的效率,让这些强大的AI功能可以塞进你身边的每个设备里 。

  • 最牛的是:它免费!

    小米把模型、代码、数据,全部开源了。

    这意味着,全世界的开发者都可以用它来创造更好玩、更有用的东西。

    AI的未来,不会被几家大公司垄断 。

我们的设备,

先是学会了“看”(摄像头),

然后学会了“读”和“写”(语言模型)。

现在,

小米让它们,

真正学会了如何去“听”。

这个世界,

马上就要变得更有趣了。

  • 想亲自体验一下?

    交互式Demo

    ( https://huggingface.co/spaces/mispeech/MiDashengLM )

  • 如果你是开发者:

    GitHub项目主页:

  • https://github.com/xiaomi-research/dasheng-lm

  • 模型下载:

  • https://huggingface.co/mispeech/midashenglm-7b

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾