小米开源“顺风耳”模型，52倍碾压对手，你的手机/汽车要成精|奥运|小米集团|手机|栗子|汽车|顺风耳

作者｜毕乐天

来源｜AI先锋官

如果你没有时间看，没关系，我制作了播客，在听的过程你可以忙些自己的事情

你有没有过这种经历？

对着智能音箱喊了半天，

它却一脸懵逼。

或者，

它只听到了你的话，

却对旁边烧开的水壶、窗外的雷声、甚至狗子的狂吠……

充耳不闻。

如果，你的AI不止能听懂“人话”，

还能听懂全世界的声音呢？

别怀疑，

这一天已经来了。

小米刚刚开源了一个大模型，

MiDashengLM-7B。

名字不重要，

重要的是，它给所有智能设备，

装上了一双超凡的耳朵。

这正是小米“人车家全生态”构想的核心：

让你的设备不再是被动地等你下命令，

而是主动地感知你周围的世界。

独门秘籍：凭啥这双AI耳朵这么神？

一句话：它不只是“听”，它在“理解”。

以前的语音助手：像个速记员

你手机里大部分的语音助手，

核心技术叫ASR（自动语音识别）。

你可以把它当成一个“法庭速记员”。

它的任务只有一个：

把你说的每个字，都变成文字。

旁边有音乐？忽略。

有噪音？可能会识别错。

至于你说话的语气、开不开心……

它根本不懂。

小米的新玩法：像个电影导演

小米的MiDashengLM，不想只当个速记员。

它的目标，是成为一名“电影导演”。

它会给听到的所有声音，

写一个内容丰富的“剧本”。

举个栗子：

一段音频里，有男人说话，还有车声。

速记员（旧AI）只会写：“一个男人在说话。”
导演（小米AI）会写：“一个男人正在用英语谈论进城，伴随着车辆行驶的声音。”

再举个栗子：

一段音频里，有音乐和欢呼声。

速记员（旧AI）只会写：“有噪音和音乐。”
导演（小米AI）会写：“人群在欢呼鼓掌，背景是电子音乐，合成器营造出一种黑暗又充满活力的氛围。”

看到没？

这就是差距。

它能理解声音里的所有元素，

把它们串联成一个完整的故事。

下面是视频演示

这对“顺风耳”，都有啥超能力？

它能干的事，多到你眼花。

️ 语言大师

不只懂中英文，

印尼、泰国、越南话，照样听得懂。

️ 声音侦探

能同时听见好几种声音。

“狗叫+汽车喇叭+下雨声”？

小菜一碟。

音乐品鉴家

它能听出乐器、风格，

甚至音乐想表达的情绪。

读心神探

通过你的声音，

猜出你的性别、口音，甚至心情。

超级知识王

你可以随便问它关于声音的问题。

比如：“刚才那段声音里，有小孩子吗？”

它会告诉你答案。

✍️ 金牌书记员

当然，把语音转成文字这种基本功，

它也做得又快又好。

未来已来：你将在哪里遇到它？

这不是科幻片。

小米已经把这些能力，

用在了超过30个智能功能上。

在你的车里（比如小米SU7）

超级哨兵模式：车停在外面，它24小时听着。一旦有砸玻璃、碰撞的声音，立刻给你手机报警。
更懂你的导航：就算你开着音乐、开着窗，它也能在嘈杂中听清你的指令。
随行外教：上下班路上练外语？它能实时纠正你的发音。

在你的家里

全天候保安：能听出烟雾报警、婴儿哭声、或者有人撬门的声音，然后通知你。
隔空操作：拍拍手开灯，打个响指关电视，懒人福音。
贴心管家：它听见厨房水开了，会主动问你：“水开了，要帮你关火吗？”。

它还能……

帮视障朋友“听”懂视频里的画面和氛围。
帮直播平台自动揪出不良声音。
帮音乐App给你推荐更合口味的歌。

最关键的是，它跑得飞快，还很省资源。

这意味着，这些超能力可以直接在你的手机、汽车、音箱上运行，不需要一直连着网。

终极对决：它和别的AI比怎么样？

不吹不黑，直接上数据。

小米把它和业界顶尖的几个模型比了一圈，

在22个公开测试里，刷新了一大堆记录。

有些地方，简直是碾压。

比如，在一个叫VGGSound的环境音识别测试里：

小米MiDashengLM，得分 52.11。

它的对手，得分 0.97。

你没看错，是五十多倍的差距。

当然，它也不是完美的。

它就像一个奥运十项全能冠军。

在“听懂所有声音”这件事上，它是王者。

但如果只比“英文语音转写”这一个单项，

可能某个只练这个的“百米飞人”会稍微快一点点。

但别忘了，

它不仅更“懂”，还更“快”。

响应速度比别人快4倍，处理能力强20倍。

这意味着，你用起来会更爽，几乎没延迟。

所以呢？这跟我们有啥关系？

简单说三点：

你的设备，活了。
它们终于有了真正的“听觉”，变得更智能、更主动。
它跑得动，用得起。
超高的效率，让这些强大的AI功能可以塞进你身边的每个设备里。
最牛的是：它免费！
小米把模型、代码、数据，全部开源了。
这意味着，全世界的开发者都可以用它来创造更好玩、更有用的东西。
AI的未来，不会被几家大公司垄断。

我们的设备，

先是学会了“看”（摄像头），

然后学会了“读”和“写”（语言模型）。

现在，

小米让它们，

真正学会了如何去“听”。

这个世界，

马上就要变得更有趣了。

想亲自体验一下？
交互式Demo
( https://huggingface.co/spaces/mispeech/MiDashengLM )
如果你是开发者：
GitHub项目主页：
https://github.com/xiaomi-research/dasheng-lm
模型下载：
https://huggingface.co/mispeech/midashenglm-7b

扫码邀请进群，我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型，顺便学一些AI搞钱技能。

往期文章回顾

小米开源“顺风耳”模型，52倍碾压对手，你的手机/汽车要成精

热搜

热门跟贴

热搜

热门跟贴

相关推荐

特斯拉vs小米su7，终于知道充电时，人必须下车了！

周鸿祎：车圈没有人敢怼小米

小米新一代智能座舱入网，有望为“寻天”首款增程SUV铺路

测试小米汽车，零重力座椅折叠，网上从来没赢过现实没输过

砸500亿造芯、赌身家造车！雷军的“骑虎难下”，比你想的更残酷

17年买的小米平板，不得不说雷总转行坐汽车，是明智的选择

晚上车这么少，小米su7也能撞成这样，这是200码瞬间刹停！

首台小米Su7出租车，果然什么东西沾上了班味，就不太好看了！

兰博基尼大牛上高速，恐怕只有小米su7 ultra，能压制他了！

小米SU7Ultra，提车不到24小时就车损了，受伤的地方意想不到

安卓车转向灯，当初看不懂的花里胡哨，如今成模仿的创意

苹果 50 年，什么都被抄走了，除了这一样

Nano Banana终于不是文盲了，但我可能会变「傻」

95后AI才女罗福莉加入小米，家族骄傲

熨烫机你会选小米吗？米家熨烫机2上手体验

男子拍对面对象跳舞，突然一辆车停在镜头前，网友：手机都掏出来了 还不明白吗

未来20年将要出现的事，铁饭碗不再铁，老百姓也能买得起房！

雷军千万挖角的天才少女，她根本就不是天才

雷军下铺的兄弟，创业家务机器人

女生一觉醒来天塌了！三个弟弟分别在玩自己的电脑平板手机

男子拍对面对象跳舞，突然一辆车停在镜头前，网友：手机都掏出来了还不明白吗