11月下旬,OpenAI在智能硬件赛道传来新消息:首席执行官萨姆·奥尔特曼在艾默生集团发布的一段对话视频中提到,io公司已完成首批硬件原型机。
io由苹果公司前首席设计师乔纳森·艾夫创立,大概半年前,OpenAI以65亿美元收购了这家致力于重新定义人与计算机交互方式的公司。
“这个世界值得拥有更好的东西。”奥尔特曼说。毫无疑问,奥尔特曼与艾夫联手打造超越iPhone的下一代智能终端,为愈演愈烈的AI硬件狂欢添了一把火。然而,放眼全球,智能硬件的下一个“iPhone时刻”似乎还相当遥远,为什么许多我们期待的未来还没有如期而至?
不久前,在蚂蚁集团投资部、峰瑞资本与蚂上创业营联合举办的AI硬件专场活动中,丰叔与蚂蚁集团副总裁纪纲进行了一场深度对话,气氛轻松,却也火花四溅(纪纲笑称“抬杠”)。
他们聊到的主要话题包括:
AI时代的智能硬件如何定义,它们与过去的“微智能产品”有何本质区别?
为何如今大模型不再被热议了,机器人、Agent(智能体)等行业热点也有所降温?
AI硬件的“iPhone 时刻”到底卡在哪儿,缺算法还是缺数据?如果说缺数据,之前支撑互联网超级App、大模型、智能驾驶等行业发展的数据都是怎么来的?
智能硬件要成为普及度高的消费品,该优先升级技术还是满足用户需求,换句话说,先做“黑科技”还是先做“好产品”?
我们整理了对话的部分内容,希望为关注AI硬件赛道的从业者带来一种思考角度,供大家参考。也期待与更多的创新者同行,欢迎你与我们联系(bp@freesvc.com)
互动福利
你觉得智能硬件要成为普及度高的消费品,是先做“黑科技”还是先做“好产品”?欢迎你在评论区和我们聊聊你的看法。截止至 2025 年 12 月10 日 17:00 ,留言最走心的 2 位读者将获得 《国家竞争优势》 一书。
/ 01 /
如何定义“AI时代的智能硬件”?
纪纲:第一个问题想请教丰叔,我们如何定义AI时代的智能硬件?类似智能马桶这种带点儿智能的硬件产品已经存在很多年了,AI时代的智能硬件有什么不同?
李丰:这是特别好的问题。我常用日本的例子来解释当下中国的产业阶段,二战后,20世纪七八十年代,日本赶上了从电子管到晶体管的技术升级。日本做的事情是利用当时掌握的先进晶体管和集成电路技术,把许多能改的机械产品都改成了电子化产品,比如机械表(上海牌)变成了电子表(卡西欧),传统的机械钢琴变成了电子琴(雅马哈)。
但在当时,由于芯片和传感器远没今天这么发达,日本企业只能做到“电子化”,还做不到“数字化”。打个比方,放在今天就是可以把燃油车改成新能源车,却做不到加装毫米波雷达、激光雷达,来实现自动泊车等智能驾驶功能。
日本的电子化带来了两个结果。
一是靠这类东西打开了全球市场,虽然一度被诟病为产能过剩。本来买得起钢琴的人就那么多,电子化之后,产量升高,就显得供过于求了。
二是这句话的反面,他们看似输出了过多的产能,实则是把单价打下来之后,使得这个产品的普及率在10年后大幅提升。在我父母结婚的年代,上海牌手表是嫁妆。到了我上初中后半期的时候,许多像我这样家里是老师的小朋友,也能戴一块5块钱或10块钱的电子表了。
回到你问的这个问题。两年多以前,我在内部说尽量多投机器人,然后一年以前,我说多投智能硬件,原因在于中国和当年日本的情况有点相似。
中国赶上了一次新的机遇。
第一,我们有极其全面的制造业链条,也就是硬件制造能力。
第二,中国用了七八年时间,尤其是2018年美国制裁华为、中兴这些事件之后的六七年时间,完善了芯片、传感器相关产业链。当然也包括一部分计算芯片产业链。
第三,虽然今天大家都说消费降级,但中国作为全球第二大的实体消费商品市场,流通效率是全世界最高的。
第四,我们这里被称作“内卷的市场”,管理学上给出的定义是这样的:通过竞争快速达到饱和的市场。一旦有个创新,大家迅速就普及开来。
这四件事倒逼企业做非常多的方向不确定的创新。其实管理学也有提到,内卷是国家创新第一个阶段的必然结果。原来在模仿创新的阶段,你知道要去哪儿,知道要学谁,要做成什么样,只是努力做得更便宜。现在我们已经到了下一步不知道要做什么的阶段。所以,一个方法是把这几个你能用到的机会重新连一遍,连出一条新线,可能有的是对的,有的是错的。
内卷有坏处,比如影响研发成本投入,但也催生了极其多零散的创新。这些零散的创新利用了原来的产业链横向和纵向的结构,就形成了我们今天讨论的这个关于智能硬件的话题的核心。
回看80年代的日本,也有一个快速增长、企业内卷的国内市场,以及完整的产业链和制造链,并赶上了一次电子器件的升级,他们更快地掌握了更好的技术。这几件事的叠加促使他们能把机械的改成电子的。今天我们不仅可以把电子的改成数字化和智能化的,还可以把原来不电子的,比如说吉他,也改成电子的。然后在这个基础上,从在国内“内卷”发展到出海“外卷”,最终做到世界领先。
纪刚:我想继续追问一下,国内市场的需求增长、产业链的完整,是过去二三十年的积累渐变的过程,不是这一刻发生的。但是我们看到智能硬件的爆发其实在这两年更突出。为什么前几年产业链已经相对完整的情况下,这个机会没出来?
此外,AI作为这个时代最大的技术变量,驱动了哪些真正AI原生的硬件出现?我个人觉得很少。
我自己观察到的,第一类是AI-native带来数据增量方式的变化(如AI Pin),但数量不多。第二类是适合做AI载体的硬件,比如数字化的眼镜、AI陪伴类的硬件。但是这类硬件又很容易被归到传统的玩具大类里。第三类就是出海的硬件。
如果从投资的视角来看,这三类的估值体系是完全不一样的。对于AI驱动的硬件,你需要教育消费者去认知这个产品,虽然它现在销量小,但未来有机会获得大幅的市场增长,可能拿到一个高估值;消费品这一端,尤其出海的消费品可能拼的就是供应链和营销渠道。
不知道丰叔是怎么区分这些智能硬件的?还是说只要符合你讲的几个要素,你们都会看,都会投?
李丰:符合这些要素的,我们都会看。但是我觉得做投资比较痛苦的一点是,你能推导出来应该有什么特质,但是你推不出来有这些特质的东西最后长出来是什么样、是谁。所以符合50%或70%以上这些特质的,我们都会考虑投。
/ 02 /
大模型进入“深水区”
李丰:我想反问下,为什么在过去的半年,大家不像前两年那么关注和提及大模型本身的变化了?为什么一年半以前,所有人都提到的scaling law(缩放定律)——这个被大模型带火的词,也不太被提及了?
纪刚:我不知道自己是不是回答这个问题的最佳人选,稍微多说两句。国内大模型兴起时,我们投了Kimi、智谱,后来也投了一些多模态公司,还一直在找应用类公司。当时是有一个认知,觉得大模型不一定是个应用,它可能更像一个升级的搜索引擎。因为大家交互的习惯还是输入框的形式。
不久前,OpenAI开发者大会披露的数据很有意思:它的产品周活用户虽然达到了8亿。但用户日均使用时长只有十几分钟,这意味着可能只比传统搜索引擎略长一点。在用户认知里,它依然是一个“更好用的搜索引擎”。
此外,开发者大会上OpenAI发布的三个产品,我觉得除了追求AGI(通过用人工智能)的底层技术,更展现了OpenAI的商业雄心。
第一个是Apps SDK,给所有已经做好的东西提供框架,让开发者反馈信息;第二个是AgentKit,所有没有解决的问题,创业者和开发者可以在我的框架内来开发和解决;第三是Codex,不仅能写代码,还能现场解决长尾问题,解决不了的话,我就现场给你写一个,效率很高。
他把所有的用户需求在他的框架里解决之后呢?展望一下两年后,假如OpenAI能发展成一个日活用户达到8亿,用户日均使用时长达2小时的产品,那用户自然会从消费者的角度重提大模型。用户提到的也许不是大模型本身,而是他们所用的这些产品。到那时OpenAI会拥有什么?是所有的用户入口,以及用户对各类产品的统一记忆。
回过头来说,为什么投资人最近不谈大模型了?因为大模型的竞争已经进入了深水区。它的进步已经不怎么显现在消费者端。这个智能领先的程度其实已经在一个较高的水平线上,但不像早期“聪明100倍”那么显性,所以很多人可能已经感受不到了。
李丰:还有一个原因,是没有更高级别的、公开可用的不同类别的数据了,大模型很难再沿同一条路进步。
/ 03 /
数据不够:
机器人与Agent的共同难题
李丰:你我都投了非常多的不同方向的具身智能机器人。从投资行业来看,两年半以前,大家热捧大模型;一年以前,国内开始热的是具身智能机器人,美国则偏热Agent,拿大模型来做各种各样的数字化应用。现在,不管是Agent还是机器人,热度都稍微降了一些。为什么这两个方向现在都降温了?
纪刚:听起来像个坑,我尝试先跳一下。的确我们投了一些具身智能的项目,之前投了8个,最近可能再投2个,但也就是这个数量级了。我觉得这个泡沫比较严重,有些公司估值一年涨了5倍,但没有太多实质性进展。
李丰:这句话很重要,就是没有观察到实际进展。
那我再问两个问题,第一,现在能拿出来演示、让人眼前一亮的人形机器人,所展示的方向主要体现了什么能力?第二,大家原来认为他们应该有下一步的进展却没有如期实现。是什么阻碍了这个进展?
纪刚:我先回答第二个问题,很难想象一个行业从基础的算法到数据采集,甚至到本体的技术路线都没有收敛的情况下,就直接走到产业成熟了。这是不可能的事。我觉得今天这些问题如果不逐步解决,机器人这个产业是很难走到下一步的。
但是反过来说,就像2015-2016年自动驾驶初创公司可能有200多家,今天跑出来了几家,但是受到技术、法规等因素的影响,仍停留在L2+,还没有真正占到产业的大红利。你说最后会不会走到自动驾驶?一定会的。
机器人也是一样,今天,太多问题没有解决,阶段性的泡沫是有的。但是,也许15年后,当然15年不一定准确,机器人产业会是比电动车加自动驾驶更大的产业,全球所有中产家庭每家估计都会有一两台,这件事的确定性是很强的。
李丰:是的,所以两年半以前我和我们同事讲要应投尽投。
纪刚:但问题是这个行业的起伏和波折可能会很剧烈,目前存在的80%的公司可能会被淘汰掉。
再回答你的第一个问题,就是到底在演示什么?我觉得主要是本体的运动能力,甚至说还是部分本体的运动能力。今天很多演示视频是加了倍速的,但技术演进的目标是让机器人的运动速率接近于人。这一步可能不是几年内能解决的。可能我比较悲观。
李丰:没有。是的,知名公司演示的都偏纯粹的运动能力。你想一想,不管是跳舞、翻跟头、踢腿还是踢足球,全是运动能力。什么能力没有被演示出来呢?就是人的其他能力,比如说操作能力。
对于怎么解决操作能力的问题,在一年以前大家拼命投资的时候,给了不同的答案。有的人认为我把大模型挪过来做大脑就可以解决,有人说我用更多的视觉数据来泛化训练上肢就能解决。我相信这个一定有作用,但是最后的鲁棒性和精准度可能有挑战。
人的大脑是非常复杂的,打个比方,假设你是个极其忠诚的足球迷,看了无数比赛,对所有的技术动作、裁判规则都了如指掌,你上场踢球能不能达到半职业水平?我想肯定没戏,不然我早就是羽毛球冠军选手了。
我们不太可能只靠眼睛看就过渡到操作,尤其涉及具体动作的操作处理。核心问题是数据不够。
回想一下,我们之所以有大语言模型,是因为互联网文本积累了好几十年。这些数据加算力,再加算法进步,才有了今天的大语言模型。机器人的运动能力是因为从工业机器人开始,就在一个位置上拼命做运动控制,按什么角度来操作,双臂如何协同,加上电机的进步和控制,也积累了三四十年,然后中国在2013年就是全世界工业机器人第一大市场。
回过头来,今天我们要做操作的时候,你得要物理模型、环境数据、人与环境交互的多维度的数据,而这些数据目前是缺失的。
这和自动驾驶曾经面临的困境类似,2015年前后大家就说自动驾驶很快会普及。10年前,大家就认为应该是L4了,但10年过去了,国标也才允许宣传到L3。
自动驾驶需要什么?需要环境数据,需要把整个车的状态数字化。它是什么样的驾驶状况?此刻是什么速度?在哪条车道上?周围车辆的状况是什么?驾驶员的状况是什么?这些能做数字化的时间还不算太长,然后在这个基础上迭代,才走到今天仍需人类接管的智能驾驶阶段。
那么,我的问题是,支撑大语言模型发展和机器人运动能力的数据,以及催生了自动驾驶L2、L3的这些数据,到底是从哪儿来的呢?
答案是,靠普及化的新传感器到了消费者手里,有足够多的人帮忙把它变成了数据。简单来讲,在文本上是因为有PC、键盘、鼠标,让你把头脑里的文字变成了互联网上的文本。
在自动驾驶领域,因为有特斯拉这样的企业,在消费级的车上装非常多的摄像头、毫米波雷达,然后中国造车新势力跟进,更多类型的传感器“上车“了,才积累了这么多可用于自动驾驶的数据,大家在这个基础上才做到了今天的L2。
人形机器人能有今天的运动能力,跟我们在工业机器人领域长期积累的场景经验与产线实践、控制算法和电机技术有关,在这个基础上,再引入今天的locomotion(机器人在局部环境中的运动控制)加先进算法。
为什么会有抖音?一个不能忽视的原因是智能手机把高清摄像头这个传感器普及了。为什么会有外卖和打车App?是因为GPS这个传感器普及了。为什么会有微信?因为他们把麦克风阵列这种能做高清语音识别的东西普及。
消费者是不会为了买传感器来买传感器的,他买的是一个产品,只是这个产品凑巧装了传感器之后,它就自然地把消费者的需求转成了数据。然后在消费者级的传感器普及之后,你才有了这些可用的数据。在这个基础上做算法和算力,才得到了最后的技术进步。
而现在,机器人要与物理世界交互,Agent要处理各类问题,多模态大模型要生成更多类型的视频和图片,这些都需要海量数据——不是文本和图片类数据,而是人的情绪、人的语言、人的体征、物理环境的状况、人和环境的互动变化等无穷多维度的数据。
我们需要海量带了传感器的新消费硬件,来收集大量的我们想要的数据。基于此,算法和模型才能迈出下一步,进化出未来的科技。
纪刚:我这抬杠的心又起来了,这里的因果关系可能可以再讨论一下。就像美国登月,并非等所有技术成熟、空间站建好才启动,而是先登月,再反向带动各类技术发展。
背后隐含的话题是,如果我们把具身智能看作终点,智能硬件、传感器、数据采集确实会带动我们走向这个终点。我也部分同意要把中间的数据/硬件补上,但这未必是一个严格按顺序发生的过程,并不阻碍我们在没完全补齐之前,就开始奔向具身智能。
也许反过来说,是在奔向这个目标的过程中,带动了产业足够的发展,外溢了很多技术,导致我们今天的智能硬件得到了更好的发展。
李丰:是的,其实是相互促进的过程。
/ 04 /
技术投资的周期性
与智能硬件创业的路径选择
李丰:下一个话题是“怎么定义新产品”。前面我们从国家和产业链的层面讲了,也从数据的层面讲了,其实还可以从投资的周期性上来看。技术投资通常是这样,第一波先投技术变革本身(如大模型),第二波投技术最有想象力的应用(如Agent、机器人),但它们往往落地难度极大,泡沫也大,第三波才轮到既能用上科技,又能证明需求,最好还能赚钱的应用。好消息是即将开始轮到第三波了。
那么,在有科技进展的时候,怎么去找它在消费端的应用?这里面最大的挑战也是投资人经常判断错误的问题:到底是按照技术的进展找一个最适配技术的产品,还是从消费者需求端找一个比他今天用的更先进的技术产品?这是永远的争议。今天我们到底在最AI的层面定义一个用户产品,还是在最贴近用户需求的层面用AI来提升产品能力和体验?
纪刚:这其实也是我想问的。其实正和反都可以有答案。
大家都知道丰叔是影石Insta360很早期的投资人,它走的是偏后一条路线,把一个原来用得不太好的场景/不太好的产品做得更好。反过来说,比它稍微早些年创业的大疆,则是开创了一个新的品类。假设我们回到10多年前,这两家,丰叔只能投一个,你会怎么选?
李丰:其实它们两个的逻辑是一致的。创始人都是有计算机、软件相关背景的人,都有算法基因。大疆主要靠飞控技术,用中国制造业产业链把军用级的东西降半格,给到Professional(专业使用者)来用,再降维做成消费级无人机;影石Insta360靠图像拼接技术,结合产业链做成了全景摄像机,先卖给有GoPro使用习惯的极客消费者,再普及给大众。
它们做的事情和当年日本公司把钢琴改成电子琴是很像的,就是用中国的产业链能力加上那个时候的软件能力,把一个原来的专业品降了半格,在海外市场获得认可。在这个基础上,它们建立了赚钱的正循环,然后随着中国用户消费能力的提升和消费市场的发展,它们又往下降了半格去了半专业级,后来又继续降格到大众消费级,变成大众消费品。
/ 05 /
“人生作弊器”
与AI硬件的“iPhone时刻”
纪刚:如果这样说,眼镜原来可不是一个Professional的东西,它是每个人都可以戴的刚需品,功能也比较单一——帮大家看得更清楚。今天有创业者在朝不同的方向做智能眼镜产品,然而算力、续航等各方面的问题还没有能够解决。也有一类产品走了另一条路,选择妥协,比如不在最好的第一视角上采集,变成一个挂在胸前的。视角差一点,画质差一点,但是把续航的问题解决了,把最初的采集需求解决了。
我之所以关注采集功能,是因为我们在内部讨论过“三个八小时”概念:
晚上睡觉8个小时,能产生大量数据,但没法交互;
另外8个小时是你的screen time(屏幕时间),注意力几乎被手机、电脑占满了;
剩余8个小时,比如我们的对话场景,用传统方法采集数据的门槛还是非常高的。能不能有一种设备,类似Plaud这种,可以很轻松地记录谈话过程。不只记录,或许它还能帮我分析你的表情和动作。
我和同事探讨的时候,把这个东西定义为“人生作弊器”,比如面试的时候,透过设备我看到面试官的表情,我提前想下一个问题怎么回答。我在想这类设备会不会成为下一代主流的采集和交互设备?最终的大boss是眼镜吗?
李丰:首先我同意眼镜肯定是最终的一类大设备,但刚才有提到一句话是消费者不会为了买传感器来买一个产品,他买个产品一定是为了解决需求的。所以说,你不要从数据层面定义需求,你可以从需求层面定义产品,得到数据。这句话听起来很拗口,简单来说,你不能因为我们缺这些数据,就假定可以有一个采集设备,一旦普及了,就可以拿到最多的数据,然后靠卖数据挣钱。这听起来是个很美好的故事,但不是消费者的逻辑。
就像很多人都说我要做下一个iPhone,像乔布斯一样去定义一个消费者级产品。但是苹果手机前面先有了iPod,在iPod和iPhone之间还有黑莓和Palm,之后才有了iPhone。说起来,iPod之前还有MP3,大家先养成了用MP3听音乐的习惯,才更觉得iPod是个好产品。
此外,苹果手机也是到了第三代,你才开始认为它是个好手机。这些可能很难跳步,即使是乔布斯。所以说眼镜最终是个结果,最终它会出“iPhone”,但是今天是不是已经到了卖“iPhone”的时候呢?我估计不同的人有不同的答案。
纪刚:那么大家会投中间态的产品吗?
李丰:简单来讲,要不然你能取到多维度的人体数据或多维度的环境数据,要不然你靠视觉取到多种场景、状态、情绪的数据。一边是从传感器来的,一边是从镜头来的,这是两个维度。其次,最好能容忍端上有芯片,这样的话端云可以结合起来做算力,当然也有挑战,包括功耗、尺寸、体积、成本等问题。
因为要取的是新数据,所以没有设备能一上来就是AI-native,比较合理的是先利用需求来做数字化。就像特斯拉一样,先装传感器,之后把用户开车的习惯、状态、路线、平时走的路况和周围的环境全部数字化。在此基础上,用端云结合的方式做智能化。
什么是智能化?就让这件事再往下变成个性化。想在第一步就做AI个性化,可以说是做不到的。因为是新维度、新环境、新需求、新场景,你缺数据。一上来就AI化,可能是有些投资人愿意买单的故事,不是消费者能感知的故事。
最后就是找交集,中国有产业链的能力,有大的消费市场,也有充分的市场竞争,你可以在里边找。找到了交集不用着急迭代,先把消费者的需求满足好。
拿摄像头来举例,过去我们用的诺基亚和摩托罗拉手机是有后置摄像头的。只是在那个时候,几乎没人用后置摄像头来拍东西。有了iPhone之后,即便只有二三百万像素,也先让大家把摄像头用起来,这就很牛。用户有了拍照的习惯之后,它再推云服务,让你把相片都传到云上,最终形成依赖。道理是一样的,你要说一上来我就要做一个极限摄像头,那可能有点挑战。
纪刚:完全同意。举个例子,睡眠状态和质量原本是非常主观的,但是现在通过设备被量化了。这个量化其实不准确。有时候,你觉得睡得不错,它给你打一个低分;有时候它给你打一个80分,但你觉得自己睡得一塌糊涂,但这个心情上的安慰是很好的。类似的例子还有很多。
我想表达的是,很多数据的价值在它被采集到之前是难以预知的。我总觉得这块好像是个没有被开发的矿,就像1958年挖白云鄂博矿,那时候大家都觉得它是个铁矿,后来才意识到白云鄂博是个巨大的稀土矿。
此刻我在想,人最终反正都embodied了,到底是不是AI,没关系的。刚才丰叔讲的过程中产生的大量的数据,包括以后每一秒我们所产生的数据,可能在未来都是有价值的,这也就是我最后抬的一个杠。
互动福利
你觉得智能硬件要成为普及度高的消费品,是先做“黑科技”还是先做“好产品”?欢迎你在评论区和我们聊聊你的看法。截止至 2025 年 12 月10 日 17:00 ,留言最走心的 2 位读者将获得 《国家竞争优势》 一书。
星标峰瑞资本微信公众号
一手商业思考及时送达
热门跟贴