打开网易新闻 查看精彩图片

从1990年进入媒体行业,录音机就是我的日常必备。最初是像砖头那么大的磁带录音机,用TDK磁带。后来是微型化的录音机,体积比现在的手机还小一号,用的是小磁带。每次录完,再回去一句句重听和整理。

我的职业生涯,就这样和录音设备紧紧联系在一起。

我和录音机曾经的尴尬故事

虽然我做内容整理和编辑的能力不错,但在工具操作方面,我是个笨人。如此简单的录音机,就那么几个按键,如录音、停止、快进、快退、放音等,我有时也会出错。

错的最尴尬的一次,是1993年,我代表《南风窗》和新华社广州记者站、广州电视台记者一起采访时任广州市市长黎子流。问题主要是新华社记者在提,我一边录音,一边做笔记,不知摁错了哪个键,过了一阵,我突然发现放在市长旁边的录音机的磁带鼓到了录音机外面。幸好市长没发现,我赶快把它放到口袋里,按了停止键。

等采访结束,再把磁带一点一点缩回去听,发现大部分内容都没录上。只好去找电视台的记者。又不好意思说自己搞砸了,就说这个采访很重要,要和台里的版本再对一下。电视台复制了一版给我,这才把内容补全。

这件事给我留下了长期阴影,以至于后来做录音采访——无论是用录音机、录音笔、智能本还是手机,我经常采着采着就去看录音是否正常。有些关键采访,我甚至会用两个手机同时录,才会放心。

直到前些年有一天,我偶然翻看女儿的一本大学参考书,美国工业设计家诺曼的《设计心理学》,我在工具方面的压抑感才得到了缓解。这本书的核心观点是,当产品出现故障时,人们常常倾向于自责,但实际上,这并非用户的问题,“操作失误不应归咎于使用者,而应归因于产品与设计。”

哦,原来不是我的问题!

尽管心态正常了,但事实上,要找到一款像诺曼所说的“以用户为中心”、具备“可视性”和“易通性”的录音设备,并不容易。特别是今天有很多采访是英文的,而且在自媒体时代,时效性越来越快,有的采访需要立即整理、编辑和发出,压力依然不小。

直到最近在拉斯维加斯参加全球科技界、产业界瞩目的CES(消费电子展),用了一款钉钉的AI录音卡(DingTalk A1),我关于录音的压力、焦虑才完全消失了。它贴在我的手机背后,可以随时进行智能听记,内容归纳,能支持8种语言的实时互译和20多种语言的同声传译。在比菜市场还吵的会场和餐厅,它都能听得清,记得下,翻得准,总结得好,成了我的第一个“AI外挂”。

打开网易新闻 查看精彩图片

从模拟信号时代砖头般的磁带录音机,到AI时代重量只有40克的录音卡;从一切都靠自己动手整理,到录音、转文字、提炼总结、输出文件纪要等,都可以交给智能硬件,在我身上,从信息化到数字化到智能化,时代的演进也清晰可见。

AI要长出“肉身”

1月4日上午11:49,我乘UA2229航班,从洛杉矶飞拉斯维加斯。

在休息室休息时,我打开钉钉AI录音卡的产品盒,很简单,就是一个主机,一个皮套,一个磁吸环。把磁吸环贴到手机背面,再把主机贴上去就行了。主机只有一个录音键和一个语音键,按开按停,别的在钉钉APP上操作即可。当然,需要先下载一下钉钉APP,但是我相信很多人手机里都有。

下载,贴好录音卡,按录音键首次开机,进入待激活,打开APP,扫一下产品激活码完成激活。我没有费任何力气,也无需任何人指导就完成了这些准备,可以开始工作了。

看到我拿出一个和名片一样长、略宽一点的小东西贴到手机背面,对面坐着的一对老外夫妇,问我是什么。我说我也是第一次用,录音、翻译、整理成文字都可以,他说了一句,It’s so cool.

打开网易新闻 查看精彩图片

今年的CES,主题当然是AI,最重要的方向则是AI正从大模型等“信息AI”走向“物理AI”,AI要长出“肉身”,和硬件关联在一起,给硬件躯壳注入AI灵魂。比如AI眼镜,相当于给物理世界挂上一幅“实时字幕”。AI录音卡,其实是把AI语音大模型的能力在卡上实现。

这一方向——有人说是“万物皆AI”“AI走向端侧”(Edge AI),有人说是“一切皆可计算”,我的总结是“终端AI化,AI终端化”——总之,随着AI大模型能力的提高,AI正在重塑一切物理硬件。

钉钉的AI录音卡,看起来是张录音卡,实际上,它搭载着6纳米的AI音频芯片,采用了5颗全向麦克风和一颗骨传导麦克风,它配备的声纹识别和空间识别可以进行可视化录音,录音文件则在录音卡、钉钉以及云端双端加密,实现AI智能调用。

在CES上,我怎么用AI录音卡?

1月5日上午,我的CES之旅正式开始。

一大早,在威尼斯人酒店CES展区参加联想集团的一个产品预发布会。会上有六七个产品专家依次展示了一系列的概念验证产品,都是围绕个人智能计算的创新形态而展开。全部都讲英文。我坐在听众席第一排最右边,讲台在最左边,距离估计有五六米。我按下钉钉录音卡的录音键,在APP里选一下“实时翻译”,这样一边在录,一边可以看到英文和同步转写的中文。半个小时的发布录完,AI纪要和章节也自动生成了。整个转写内容可以直接在钉钉使用,也可以以文档格式下载到手机里,转发给其他人。

第一次用下来,我很满意,因为功能切合我的需求,产品非常易用,整体识别率也挺高。虽然有些专业名词翻译的不准确,但我知道,如果我授权它使用我的数据来训练,很快会慢慢变好的。传统的机器学习模型,语音识别准确率大概在70%左右,一般大模型的准确率能做到80%,但钉钉录音卡的背后是钉钉团队和阿里通义实验室的能力,他们已经通过1亿小时的视频音频学习,使准确率能达到90%,经过专项训练的准确率可以提升到97%。所谓专向训练,就是要允许它访问你的一些私人数据,更了解你的工作特征和平时经常使用的语料。

5号中午,威尼斯酒店的一家餐厅,我参加了总部在纽约的一家公关公司高管组织的一场餐叙。餐厅在室外,周围很多人在就餐,有些吵闹。我们这张桌子一共五个人。我打开钉钉录音卡,发现它在有干扰的环境中的录音准确率很高,我也使用了“实时翻译”功能做辅助,40多分钟交流下来,觉得效率比平时提高了。

6号早上,在另一家酒店的餐厅,和一家世界知名公司北亚-太平洋区域的COO交流。这次是室内,我们一共三个人,餐厅人气很旺,也有些闹,他们两位的一些对话我听的不是很清楚,但看钉钉录音卡,则非常清楚。

6号上午,我和一位媒体朋友采访国际足联创新总监Johannes Holzmuller,这次是在室内,环境很安静,所以无论录音效果还是生成的AI纪要,质量比前几次都更高了。

打开网易新闻 查看精彩图片

再之后,7号上午连续三场的联想集团高管群访,我用钉钉录音卡已有些得心应手。联想集团董事长兼CEO杨元庆说,AI正变得无处不在,智能设备内置的AI agent智能体可以在用户授权后,响应指令,甚至做出行动。我想,也许用不了几年,在各种终端硬件上都体现AI的力量,让硬件从机械化的“被动执行者”变成智能化的“主动参与者”,就会变成现实。

整个CES之旅,我录了七八个小时,发现电池还是很强,才用了不到30%的电量。据说它可以连续工作45个小时,而且是TypeC接口,用手机线就能充电,完全没有续航焦虑。

1月7日下午,当我即将结束今年的CES之行,到中心展馆逛展时,我专门找到了钉钉的展位(22020号),虽然展位不大,但我由衷地对钉钉这张AI录音卡说声谢谢。自从它贴在我的手机上,还没有摘下来过。

对我来说它的好处有三:一是录音效果有保证,隔着几米远,且周围有些嘈杂,效果也没问题;二是实时翻译、同声翻译,边录边译,特别适合国际化“出海”的场合和场景;三是录好即转好和总结好,能节省大量时间。虽然还并不完美,但随着它的能力增强,它的表现会越来越好。不像传统硬件,能力是固定的,难以迭代。

打开网易新闻 查看精彩图片

AI新硬件时代正在来临

然而,和AI录音卡的真正能力相比,我所用的只是冰山一角。

比如,它里面有一个AI问答功能,可基于现在所录的内容知识库进行各种问答。有的长文件,自己都会忘了在什么时候说过什么,过去要反复地导,现在问一声,关于某某问题,谁谁是怎么说的,它就会马上找给你。

又如,已经录制的多个文件,可以合并在一起,生成整体纪要。这对我这样喜欢多源头采访、录音量特别大的人来说很有用。

这些功能,我还都没有用过。

所以说,在充分发挥技术工具的生产力方面,我还是一个笨人。

只不过和过去比起来,现在的笨鸟要幸福很多,因为可以借助AI工具,先飞起来。

对于企业组织来说,钉钉的AI录音卡的作用就更大了。在AI钉钉1.1产品发布会上,友成公司的执行董事许笑迎分享了这样一个故事:

不久前,友成董事长去墨西哥出差,许笑迎为他特意配备了一台钉钉AI录音卡。起初董事长非常不解,觉得这能有什么用。结果有一场会议结束后,董事长马上打来电话,说实在太好用了——那是一场在墨西哥跟日本客户的会议,墨西哥讲西班牙语,董事长不会讲。但在录音卡帮助下,不仅实现了西班牙语实时转译,甚至还帮董事长对比校正出人工翻译的遗漏,大幅提升会议沟通质量。公司迅速给管理层及外派人员都配备了录音卡。

今年的CES,我在不少展台都看到了新一代AI硬件,比如戒指、项链、耳环等饰品。此时的重点不是“可穿戴”,而是可工作、可交流,你对它说一声话,它就会和你互动起来。AI技术真的从云端落地了,落到万物里。

这要归功于过去几年的AI大模型快速发展,以及芯片、算法、架构、感知、通信五大技术的协同突破(如NPU+存算一体,轻量AI大模型,多传感器融合等),让各种便携式、可穿戴的硬件设备,通过采用“本地采集+手机/云端计算”的分工模式,如神灵附身,变得比过去聪明太多。

根据第三方数据公司弗若斯特沙利文的预测,2025-2029年,全球AI端侧硬件市场规模将从3219亿元飙升至1.22万亿元,年复合增长率达到40%,增速远超传统消费电子品类。

尽管还存在专有数据不足的问题;提升用户体验需要投入很强算力,而算力会增加成本和功耗的问题;以及某些网络环境对于产品使用场景的限制等问题,但AI硬件的最大优势就是基于软硬件一体化,可以快速更新迭代。

就像去年4月北京的人形机器人半程马拉松,不少机器人当时还无法直立直线前行,数月之后已能在多个场景中作业。据说英伟达已将主要AI数据中心GPU的架构更新周期从两年缩短至一年,并开始发货新一代“机器人大脑”,就是为了更快提升机器人的推理与决策速度。

对于钉钉这一拥有2600万组织用户以及7亿个人用户,中国最大的协同办公平台来说,数以万计的办公、学习、会议、交流需求,为它推出创新的AI硬件产品,打通从数据输入、AI处理分析到工作中协同行动的闭环,提供了丰厚土壤。也因此,钉钉录音卡自然成为阿里面向AI时代的消费级主力硬件。

像钉钉录音卡这样的产品,背后所调用的是阿里巴巴的算力和通义大模型。钉钉在深入千行百业的智能硬件方面的作为,也事关阿里的大模型如何被更多地消费。

打开网易新闻 查看精彩图片

结语

在供应链方面,中国制造已经有强大的竞争力。现在,是在各种硬件上注入AI的时候了。这将使中国制造变成真正的智造,不仅用智能化方式去做制造,也制造各种智能硬件。

在这个过程中,互联网超级APP公司、大模型公司都会在“生态终端化”方面下场,不仅钉钉,其他巨头也都在纷纷尝试硬件形式,如企业语音AI终端,智能客服/会议硬件,跨工作生态嵌入式设备等。

钉钉的希望是,通过软硬协同,从任务捕捉到内容解析到协同执行,打造一个更加闭环的办公体验,用人人可用的硬件帮助组织沉淀更多的数据资产,发挥AI价值。这是一个横跨软件、AI、硬件和企业服务的全栈方向,充满了想象力。

我从自己亲自体验的这张小小的录音卡,看到了基于中国的制造优势、供应链优势和庞大的组织规模、应用场景,一个宏大的AI新硬件时代正在来临,已经来临。

这似乎也昭示着,从移动互联网走向智能体和智能硬件相融合的新互联时代,也已拉开了大幕。

No.6716 原创首
发文章
|作者 秦朔

开白名单 duanyu_H|投稿 tougao99999

欢迎