下一个杀手级AI产品,是眼镜、是Agent,还是某个尚未命名的“物理世界入口”?这场圆桌没有标准答案,却达成一个共识:单纯套壳大模型的应用注定短命,只有长期在线、连接物理世界、能完成真实交互闭环的产品,才可能成为下一个百亿级赛道。从AI眼镜到具身智能,入口之争已悄然打响。
硬件先行还是生态为王?C端规模还是B端付费?最终指向同一个逻辑:纯套壳应用、弱交互硬件注定被淘汰,只有“多模态底座+AI原生智能体+可穿戴硬件”三位一体,才能让AI从聊天框真正走进现实。
以下为圆桌对话内容,经36氪整理编辑:
刘子豪丨杭州颜柯教育联合创始人(主持)
赵维奇丨乐奇全球开放生态负责人
路少卿丨商汤科技研究院技术管理负责人、多模态产品负责人
刘子豪:各位上午好,我是来自杭州颜柯的刘子豪,欢迎来到这场杀手级的AI产品赌局。今天不聊虚的,只聊一个事:下一个全民级、百亿级的AI产品到底长什么样,又会诞生在哪个赛道。今天有幸请到两位嘉宾,分别代表了不同的赛道,有请两位老师介绍一下自己。
赵维奇:大家好,我是赵维奇,来自乐奇。我是一个持续创业者,之前一直在做多模态和人工智能软硬件设备,to C看得比较多,目前负责乐奇全球开放生态,从芯片、硬件、OS、API、应用到高校、非营利组织,都可以看有没有合作的机会,推动整个行业。
路少卿:大家好,我来自商汤科技,主要负责多模态交互相关技术研发、产品化及产业落地工作。
刘子豪:感谢两位老师。如果必须押注一个赛道会诞生下一个杀手级的AI产品,您会押哪一个?可以用自家落地的案例证明您的判断。赵老师。
赵维奇:先有一个定义,下一个杀手级AI产品一定是长期在线的,跟物理世界能连接的一个入口。从我的角度,这个品类一定是AI可穿戴。可穿戴在不同时间阶段可能有不同的产品出现,目前来说,AI和AR结合的眼镜是最合适的,相对离人更近,在线时间也更长,能够更容易连接物理世界。
人每天看世界的时间应该比看手机的时间长很多,大部分时间是跟物理世界进行交互。如果是杀手级AI产品,一定是高频、刚需并且能够持续使用的。从这个角度,眼镜是最好的长期在线的部分,手机是你主动打开的,不能做成持续在线。
再说AI Agent。有了AI Agent以后,每个人都搞智能体或者其他的解决方案,都希望你的Agent是长期在线的。什么硬件或者什么产品能够让Agent长期在线,并且能陪伴在我们身边,帮助我们处理跟物理世界之间的任务、关联、记录,这个就是杀手级的AI产品。
总结来说,一定是长期在线的、能够跟物理世界相关联的入口,能够保证持续、高频使用,满足刚需。这也是下一代AI的入口,只要是一个入口,就一定是杀手级的产品。
路少卿:很多正确的判断,最后其实会走到相近的方向上。刚才说的内容,跟我想的是类似的。杀手级的应用还可以再抽象一下。无论是从最开始的模型还是到现在演进的Agent,AI从单点介入,到长期、持续的介入,目前的Agent——无论是ChatGPT还是其他,还都是停留在数字世界对话框里的AI,能用到的,在线时长是有限的。
我预期下一步我们能够延伸出一套从数字世界走到物理世界,真正能在物理世界跟人类协作的智能体系统。当然,这套智能体系统可以基于眼镜接入,也可以基于具身机器人接入,这些都是接入的硬件入口。对整个产品乃至技术的最大挑战,是能够真正实现跟真实世界的持续有效交互。
举个例子,比如我现在是一个AI,刚才主持人和嘉宾都说了一段自己的陈述,对现在大多数的AI来说,它是无法分辨谁在说话,什么时候、什么话题需要它响应的。我刚才说的这一套能够跟真实世界交互的Agent,如果解决了这个问题,那么AI才能真正进入物理世界跟大家协作。
刘子豪:作为一名辩手出身,接下来针对两位老师的分享简单做一下追问。赵维奇老师,AI眼镜分为两种路线,一种没有显示,更像是AI耳机加摄像头;另一种是AI加AR有显示的眼镜。您怎么看这两种路线的区分?
赵维奇:硬件形态可以是多样化的,不管是外形还是功能,包括覆盖的人群。有显示、无显示,属于不同阶段、不同场景的产品形态,场景不一样,选择的时候就不一样,就像手机也有很多种。无显示,更多是蓝牙耳机、摄像头的延展,可穿戴蓝牙耳机和摄像头,会更轻一些,应用场景更轻一些。带显示,原来把AR带到了物理世界识别以后,不管是识别语音还是别的什么,一定会有反馈。如果没有显示,只能通过第三个媒介,比如手机、电脑、语音播出。人类大脑接受信息的带宽是很有限的,而视觉是最快的。300字、500字的文章,用眼一看,两秒钟就知道大概的意思;要读出来,有些同学可能都只有七秒的记忆,读到第五、第六句前面就忘了。显示本身就是增强人类带宽的部分。
为什么会有显示和无显示的区别?有显示更多是把AI处理的结果实时呈现在现实视野中,完成了现实中交互的闭环。原来没有完成这个闭环,或者比较慢,现在完成了闭环。很多场景,不管是to B还是to C,真的需要显示。导航需要显示,大部分不太想看手机。十年前就有HUD的概念,抬头显示器,早年开宝马或者奔驰,前面有一个小小的HUD显示器,希望你在不干扰物理世界的情况下非常方便地看到,这是to C。to B那就太多了,提醒、提示、巡检,通过显示都是很好的呈现方式,这是场景下的需求。大家为什么要拿一个chatbot,为什么要用聊天框,不就是为了知道发生了什么、现在的情况是什么样。一直在语音播报,大脑容量肯定处理不了那么多事情,一眼可以用肉眼筛选。在Native AI大时代下,显示是必然的,对应着各种取舍。
AI不单是会听、会说。如果只会听和只会说,在我看来是旁观者,不参与。帮你看、帮你处理,他有话要说的时候,就像你找了一个秘书,他是个i人,很多状况都没有告诉你,效率反而更低,还不如你自己看。能够显示,理解空间并且返回到现实中,实时反馈,这是必然。很多厂商都在做各种形态的产品,行业做这么多产品,在某种程度上是验证了AI眼镜是未来的重要入口。形态上的取舍有短期的、长期的,包括商业策略的变化在内,这是大家的取舍。
刘子豪:听下来感觉显示是AI眼镜从能听会拍走向真正理解现实世界的关键一步。下一个问题,AI眼镜很像2010年前后的智能手机,大家都在抢入口。乐奇内部最看重的商业模式是什么,是硬件销售、应用生态还是智能体服务带来的长期价值?
赵维奇:如果大家长期做硬件,像我做了十几年的硬件,第一个要遵循的肯定是长期主义。硬件公司跑出来的都是五年、三年以上的公司,不然就跑到另外一个品类了。华强北,短平快,今天你可能做耳机,明天就做话筒,后天就做成人玩具了,跨度非常大,只是为了生产快速变现的方式,而不是推动行业的方式。相对来说,初创原始团队都是有初心的。我们的初心是做VR,在乐奇过去十年从来没有碰过VR,初心是做眼镜形态、跟物理世界交互的终端,商业模式也是长在这里的。硬件是入口,硬件完成大规模销售,从可用到好用,大家要用起来,这是第一个规模上的覆盖。每个人都有的时候,就会有下一部分——生态拓展。一旦有技术,需求就会大量增益出来。除了本身的翻译、提词、导航以外,现在最火的agent应用之一是“比价”,这是我们生态里的小伙伴做的,在超市里看到农夫山泉的水瓶,你就问这里全网最低价是什么,答案马上就出来了。原来我们自己想不到,硬件作为入口没有那么大的用户量也就不值当,或者没有那么强的驱动力让开发者、创业者去做这个事情。所以,第二个就是生态的拓展。
第三个是更加长期的价值。我们做生态做了三四年,之前也没有Agent或者AI,现在有了Agent以后,你会发现是长期服务的角色。最后硬件买回家不单是工具,你买的不是设备,更多的是能帮你长期完成事务的能力。硬件是载体,你希望它能长期给你能力。能力核心本身要有硬件,生态要有应用。AI年代是Agent,Native Agent更多是覆盖你方方面面,而且很轻量。这一点是我们的商业模式。我们的商业模式核心是OS加生态,硬件只是长在上面。OS是为了让本身的能力能够发挥到更大的深度和广度,有更多的开发者用各种技术栈完成,深度可以接驳在线、离线、端侧、云端的模型,这就是OS的能力。生态拥抱、开放就好了。
最后一个持续的商业化策略,跟大家协同,共同把能力释放给B端客户和C端客户。
是这样的想法和定义,目前是这么想的。
刘子豪:少卿老师,商汤一直在讲多模态大模型。商汤押注的不是某一个单独的APP,是不是让多模态进入真实场景,比如AI硬件、机器人、办公智能体等?在您看来,商汤未来真正的杀手级是模型本身还是跑模型的具体应用?
路少卿:模型其实决定了整个产品或者系统的智商上限,这是基础。
应用、APP或者产品,和AI眼镜或者其他具身智能机器人结合,这是入口。大家都提到了OS这一层,这一层也是目前我们在做的最核心的点。这个核心的点从基础的pipeline延伸到现在的智能体,延伸到将来有可能成长为所谓AI的操作系统。
操作系统解决的是什么?是把我们刚才所说的智商上限发挥到极致,如何管理上下文,如何更好地调用工具,如何在契合的时间点理解我们的真实意图——就像我没跟它说话,它可以理解甚至主动跟我说你是不是要干点什么事。这一层系统是未来的核心。
这套系统,回答的是Agent如何从纯数字世界晋升到物理世界真正的协作者,到底能不能当我的助理——真正的助理,不是在聊天框收我信息的助理。现在的智能体都是基于深度思考的逻辑,多轮调用、持续思考、决策再执行的过程。但在这个过程中,这一类深度推理的信息都给我,我也不想看,我做研究可以分析推理过程,但从用户的角度,我只希望在合理的时间告诉我是否需要我介入帮忙,或是直接对我说“我搞不定了,你帮帮我”等等。
对于商汤而言,我们不单只是做模型,也不单是跟下游的硬件厂商合作,而是我们要深度集成现有的模型能力,让这一套从文本交互的逻辑真正晋升到实际改变人机交互策略的系统。
刘子豪:能不能举一个商汤曾经判断这个场景特别值得做的例子?怎么发现这个需求?
路少卿:我举一个现场的产品,今天负责主持这场大会的商汤商量AI讲解大脑。之前我们判断一个场景,我个人感觉不只是商汤,很多创业者的判断逻辑都是一样的。需要定义一个问题:首先,这个问题是否是高频问题?只有高频问题才值得解决。第二个,高频问题是否有价值。第三个,有价值的积累是不是可复制。我们是靠三要素决策这个事情值不值得做,有价值才能衍生出一个产品。
AI讲解大脑的系统为什么做?也是从这三点来的。 这两年具身产业高速发展,但除了表演演绎场景,也可以为他拓展更多的商业价值。机器人需要真实进入到无论是B端业务中还是C端场景,要解决它们真正的应用,要解决刚才谈到的问题。这些问题解决后,才能保证整个实际最后一公里的应用。
刘子豪:接下来我们进行快问快答环节。我抛出三个问题,请两位老师分别回答一下。第一个,杀手级AI产品到底是硬件入口,还是软件,还是Agent?
赵维奇:首先,软件、硬件都不是,要看谁最后完成闭环。最后一定是场景做闭环,这才是真正的杀手级产品和场景。没有Agent的硬件就是硬件,没有硬件的Agent,可能只是一个聊天框。你要放更多的入口,软件、硬件、Agent,大家要协同完成闭环,这就是最终的形态。
路少卿:我跟老师刚才说的逻辑基本是认同的。我会有一个先后的顺序。我个人认为,硬件是入口,肯定是先行,先把硬件铺下去,用户才能用硬件里的软件。什么时候它成长为杀手级的应用,不再是单品的火爆,取决于于它真正融入比如C端用户的生活,黏性足够高。在入口铺下去以后,持续提供的功能能让用户持续留下来,这样才能最终成长为杀手级的应用。
刘子豪:第二个问题,下一个杀手级应用,是会先在C端还是先在B端?
路少卿:我个人而言做B端比较多,我觉得B端更多一些。无论是C还是B都有可能,要看业务和产品形态。
举个例子,还是拿我刚才说的与具身智能的结合为例。以产品形态来看,我个人觉得在跟真实物理世界交互结合上,智能体、硬件的升级,在B端有明确的边界效应。C端应用落地的要求远比B端要高,因为B端是相对可控的垂直场景。所以以这个场景为例,还是在B端打磨相对成熟以后会更好。换一个产品形态可能是反过来的,具体要看产品形态。
赵维奇:看你怎么定义爆品。C和B是完全不一样的场景和目标。C端更多的是规模场景,意味着大量人使用,大量人使用肯定是跟日常使用强关联的,高频的,能解决实际问题的。B端,我们也做了很多B端的,付费意愿更直接,ROI算得更清楚,一旦有这个场景、功能、解决方案,真的会直接付费,他已经想清楚了。一个算术问题,C端还是B端就和产品形态有关。越来越多的AI都是服务某一个人群的某个需求,这部分就看是不是在这个品类里爆。
乐奇过去十年,之前都是B为主,C我们一直在做。眼镜本身为什么不一样?我们一直做人机交互,人机交互的本质是人和机器如何友好沟通交互。一个工人拿着B端的解决方案在工厂里完成他的工作,也是要有人机交互方案来完成工作,这从本质上也是一个to C的。B端和C端在产品定义上商业的时候是区别,但是在用户角度上最终都是人机交互,现在不要炫技,要解决实际问题。只要解决实际问题,有一个时间点,技术的迭代、行业推进,包括硬件、供应链的迭代,在一定程度上把这个品类用你新的技术和解决方案覆盖了,某种程度上就是爆品。也许一千就是这个行业的上限,也是爆品。要拥抱真正解决的问题,思考真正解决问题的解决方案,这才是最重要的。
刘子豪:第三个问题,刚才聊了很多什么是杀手级产品,在二位看来,什么样的产品注定不是杀手级的产品?
路少卿:什么是杀手级应用,什么能演进为杀手级应用?现象级的应用很多,大家每天都会看到爆点,今天这个火了,明天那个火了。现象级应用像从漏斗里十选一、百选一,还是我们刚才一直讨论的问题,它可能在单位时间内形成爆点,爆点能不能为它带来持续的流量、商业价值,这才是核心。
举个例子,现在有些做应用的公司,可能会做一些套娃,短期会实现爆款。为什么没办法成长为所谓的杀手级应用,是因为那是挣快钱的逻辑,不是做产品。真正的产品要长期给用户提供无论是情绪价值还是真正的价值,这些才能给用户持续的黏性。以此类推,刚才举例子的产品,可能都不是能成长为杀手级应用的备选产品。
赵维奇:不存在注定成不了,成的概念也不一样。所谓“杀手级”,不是只有一种形态。有一些杀手级产品,可能一年只出现一次,只解决一个特定人群、特定场景、特定任务;也有一些是高频的、持续完成任务的,它的角色决定了它要做什么。哪些比较难?我觉得是套壳。当前时间线上,套壳的价值会越来越低。随着大模型的发展,很多泛化功能都会被大模型吸收,AI应用很难跑出来。今天有一千个用户,第二天就涌到其他平台上了,最后完成商业闭环,钱付给谁?就像运营商一样,最后用户会回到底层平台。从这个角度,身边很多朋友一开始做套壳,后面做2B,一定会往深场景、深工作流里挖。
硬件方面,弱交互的智能硬件,本质上也是接一个模型、套一个壳。现在市面上有200到300个品类,从80到3000都有,本质没有太大区别,只是受众群不一样。这些是不是有价值?有。是不是长期的产品,是不是杀手级?杀完以后留给行业的是不是一个新品类,能不能留在牌桌上,是另外一个事情。大家做创业公司,如果想做杀手级产品,要想好自己的定位:我是希望自己干出一条血路,验证一个方向,成为行业先锋;还是希望持续留在牌桌上,做长期平台和长期价值。
还有一种慢,但是它可以做持续深耕,很多大厂是这样,这也是一种杀手级能力。AI时代,创业者本身或者大厂做产品的同学要思考是短期还是长期。另外一个,模型能力真的很容易追平,今天是A家,明天就是B家,没有真实场景也很难生存。付费意愿是你解决问题才能付费。
第三个,数据留存是接下来AI所有硬件、软件的核心。最后你表面看起来功能很强,各方面很强,增长到比较大的阶段,用户就会想我的数据留在哪里。AI是有上下文的,有个性化的,如果长在一个平台上,后面持续才能发挥AI最大的能力。如果不是,你切换成本是很高的。这是不看好的。一个是套壳,一个是相对短期的,还是要形成长期的商业价值。
刘子豪:下一个问题,在押注的赛道当中,分享一个目前最接近杀手级的场景是什么?
路少卿:现在有很多AI工具,在辅助办公时候,聊天框里的能力几乎足够了,但是在聊天框里积累的能力拿到真实的物理世界交互,以我当前的状态判断,今天为止还不足以支撑在物理世界的交互。我个人从技术和产品整体解决方案的判断来看,在12个月以内,AI是可以从聊天框走到物理世界的。
一方面,随着海外大厂和国内大厂在这些领域持续长期投入,包括我们自己的产品也在持续升级迭代。我们可以看到,之前AI好像傻傻的,只能一对一交互,现如今可以逐步进入到多人交互的场景。多人交互的场景,AI要具备做哪些事的判断——就像现在这个场景,如果我是AI,今天本人没空,我作为AI助理 代为发言;有一些问题,我需要用一些风趣幽默的逻辑来回应。这些判断不仅是基于文本prompt,而是AI这套系统怎么真实理解、观测到所有显性的信息和隐性的信息,去完善它跟物理世界的交互,这个是它在解决数字问题以后接下来需要重点关注的问题。
我也相信在未来12个月内,在这个领域会有相对比较重大的突破。
赵维奇:本身都是短期的,不存在长期的解决方案,除了to B。AI本身的能力上限就在于上下文、个性化、记忆。如果没有足够大的记忆,就像人类成长一样,你在小学的时候看不出来,有可能是学渣,最后长成学霸。在小学六年的上下文不足以支撑他智慧的涌现,到了初中、高中,有更多的知识图谱出来以后,有些人的强项就会被激发出来。AI也是一样,AI类似于人脑的处理,如果没有足够多的上下文——为什么我们要做硬件、多模态,最终目的是为了提供在当前场景下、当前状态下最适合的反馈和解决方案,而不是通用的解决方案。通用解决方案任何大模型都会吃掉。只有你会做个性化、离线、在线或者做你自己的上下文,场景下的上下文或者B端客户的上下文,再加上多模态实时,留存的时间多一点。
在我看来,短期不是一个坏事。一个花园里有很多草、树木,有一些花草的生命周期很短,但是一直在迭代、进化。进化的本质就是死亡,只有死亡才能进化,不死亡不会进化,你一定要死亡才会进化。有一些百年老树、百年老的品种才能适合这个场景,在整个品类里就一到两个,不是所有人都能生存下来,环境里有大的突发事件发生。
我个人觉得,我们很早就布局了。我们这样的角色现在要做的是帮助合作伙伴和开发者提供更好的平台。我们有一个后花园,让大家可以生长;我们会提供一个相对长期在线、跟物理世界相连的平台,包括我们跟商汤长期合作,有集成在一起的能力给到大家。大家在里面,今天你做出一个杀手级应用,明天他做出一个杀手级场景,这个才是生态意义上的“杀手级”:持续给产业、行业、人类世界输送价值。原来这些很难做到。如果在场有程序员,我以前也是工程师。过去工程师需要很多背景,比如技术背景、项目管理背景、计算机背景,现在AI把很多门槛降下来了。这些人的价值怎么释放出来?他们也可以做杀手级应用,这就需要平台。这个平台可以承载非常垂直的功能,也可以承载非常泛化的体验。接下来,我们要提供多模态的、能够跟物理世界相连的、让大家随时看到高频刚需并快速生产工具、应用和体验的平台。这个平台上一定会出现无数个“杀手级场景”,这是接下来12个月能看到的。就像现在Vibe coding到了一定涌现阶段,给孩子做一个工具,可能也是一个爆品;给父母、给某个行业做点什么,也可能成为一个高价值应用。这是当前AI时代行业从业者需要认真思考的。
刘子豪:经过今天的讨论,杀手级的AI不是单一模型或者单一硬件、单一APP,其实是由多模态底座、AI原生智能体、可穿戴三位一体的形态。谁先把看得懂、听得懂、会协作、随身带做到极致,就是下一个杀手级应用。
我们今天的圆桌就到这里。
热门跟贴