你永远等不到一个时代的浪潮,
你需要去追寻。
回看历史,人类信息化的每一次范式转移,都有着相似的规律。
移动互联网时代的真正到来,并不是因为第一代智能手机的组装下线,而是因为 iOS 和安卓生态的建立、云基础设施的普及,才让千千万万的独立开发者能够以极低的成本创造出改变世界的应用。
开发者成群涌现的前夜,往往是奇点到来的钟声。
这期访谈的两位嘉宾,是为这场范式革命加速的具身基建创业者——地瓜机器人的基础设施研发负责人秦玉森,以及阿里云无影事业部总经理张献涛博士。
秦玉森有着 20 多年的机器人开发经验,也是一名成熟的技术管理者 。在这一轮具身革命中,他与地瓜机器人,致力于打造机器人行业的母生态——他为这个时代的硬件工程师们,梳理了一部全新的成长手册。
张献涛博士则亲历了移动互联网时代,云生态的建立。访谈中清晰地讲述了:云计算,将如何成为撬动整个具身商业社会的超级杠杆。
这期内容不仅包含大量机器人的硬核技术,更是一部关于技术、人才以及基建变迁的微观商业史。特别推荐硬件从业者、工程师和具身产业人士阅读。
(️原版访谈的视频版可前往微博、B 站、视频号、Youtube等平台观看;播客版可前往小宇宙等平台搜索同名账号《卫诗婕_漫谈Light the Star》)
访谈 | 卫诗婕 × 秦玉森(地瓜机器人基础设施研发负责人)、张献涛(阿里云终端智能计算事业部总裁)
漫谈Light the Star
PART ONE
2000 年代,我就是机器人开发者
卫诗婕:你的经历非常的丰富,先介绍一下吧。
秦玉森:我在欧洲的三所学校读书,两年半差不多有 5 个在欧洲的硕士学位。回国之后先短暂加入了零零科技,一家做无人机的公司。后来到了九号,大概做了快 7 年,之后出来短暂休息,就加入了地瓜,负责机器人领域的基础设施研发。
卫诗婕:你在九号一路做到了 AI 机器人研究院院长这个职位。你的机器人之路是从那个时候开始的?
秦玉森:其实仔细地说,我的机器人之路应该在欧洲就开始。因为瑞士一直都在机器人领域比较发达。如果追溯更早的话, 2000 年前后,我在高中就做第一批机器人竞赛,直到后面变成了工程师。工程师就很朴素了,想用自己的双手和技术改变世界,机器人就是一个绝好的载体。
卫诗婕:所以 2000 年你就是机器人开发者了。
秦玉森:跟今天在初中、高中参加比赛的小朋友们没有什么本质区别。但是很多火花就是从幼年时开始爆发起来的。
卫诗婕:那个时候的机器人开发是什么样子的?
秦玉森:那时的电脑编程处在非常原始的状态,当时机器人开发需要从编程开发竞赛的团队里面选人,你得先会编程,再去碰机器人。那时的机器人就是一些电机控制,从形态上和今天的 STEAM 教育没有本质区别。只是当时算力更低,电脑更贵,不是大家都能接触到的。今天其实很多小朋友们可以拿手机、Pad 、笔记本电脑做编程,时代进步的学习速度反而更快。而认知机器人的进化速度并没有想象的快,毕竟 100 年前大家就已经在畅想机器人的出现。
卫诗婕:机器人是什么?
秦玉森:我觉得就没有答案,但是在这些小朋友、今天从业者的眼里,就是一个有行动能力、有一定的思考和判断能力的会自主运动的载体。只是它可能自己会理解一些人类授予它的规则,比如今天大模型会赋予它自己产生想法。如果是这个视角的话,我们认为是一个不同于人,但是也有行动能力、决策能力的智能载体。
卫诗婕:你还记得你自己开发的第一台机器人长什么样吗?
秦玉森:其实有点像今天在淘宝上能买到的古月居机器人,两个轮子,上面一个板子,但当时的传感器没有摄像头。 2000 年的时候,摄像头还是个稀罕货,只有一些简单的超声波,简单激光测距的东西。
卫诗婕:那个时候你想开发的机器人是什么样的?
秦玉森:和今天没啥区别。有一个动画片叫做《铁臂阿童木》,一个小男孩,对于正义、机器人、能力、改变世界、良善的所有的综合的载体。还有一个类似的叫做哆啦A梦。他是一个特别好的玩伴,大雄一辈子的好友,能从兜里拿出来所有奇奇怪怪的东西,有一个无穷无尽的口袋。这就是男性对于英雄主义和挚友的两个特别具象的想象。
漫谈Light the Star
PART TWO
工程师的黄金时代:
PC 的黄金年代不是 1990s,而是 Macintosh
卫诗婕:哪一年去了九号?
秦玉森:应该是 2015 年左右,当时九号收购赛格威,成立了一个子品牌叫赛格威机器人,做世界上第一款陪伴机器人,在平衡车的身体上加了一个脑袋。当时我记得很清楚,用的是英特尔的第一代移动处理器,以及 RealSense。很多校准的代码都是我们去帮忙测试和编写的。
卫诗婕:一个平衡机上架一个机器人,要让它做什么?
秦玉森:和今天的四足狗一样跟拍。但是它和狗不一样,是个平衡车,所以你可以站在上面移动。这个产品一度被很多美国的顶尖高校购买,作为教学和实验平台。当时有一些美国的企业,包括微软、英特尔、苹果都是这个产品的客户,但是后来因为九号的战略开始倾向于普惠和移动,所以后来就把这条产品线逐渐停产,转向了商用机器人,送物送餐。
卫诗婕:这其实是一个非常有意思的话题,今天的具身行业也正在处于这样的转型。一些头部企业的商业模式开始从 to lab (卖给高校研发场景),转向 to B 甚至 to C 。
秦玉森:这件事可以看整个人类信息化的历史进展,最开始互联网是给实验室用的,但今天每个人都离不开互联网。电脑第一批的用户是开发者,大家编写程序、做专用的软件,直到苹果把第一代有 GUI 界面的电脑贡献出来,变成 personal computer,才会从 to Developer 变成 to user 。
卫诗婕:九号没有把这个产品做下去,没有真正完成 to lab 到 to c,你会觉得有点可惜吗?
秦玉森:也没有什么可惜,因为彼时彼刻时机没有到,一定要尊重技术发展的客观规律。首先当时的算力和传感器不成熟。此外,当时这个产品对于九号的主营业务增长是没有太多直接帮助的,更多的还是品牌和技术影响力。当然,培养的这波人后来成为了九号的顶梁柱,这是我认为更大的价值。
卫诗婕:在硬件领域,九号也算是一个人才的发源地。有一句话说「北有九号,南有大疆」。我觉得你以当时的履历和能力应该可以选择任何一家公司,最终为什么选择九号?这两家公司的风格差异是什么?
秦玉森:当时我从零零出来,正好做的是无人机,的确面临这样的选择。但彼时彼刻还是被个人魅力所吸引——九号有我两个大学长,一个是普利博士,还有一个是陈子冲博士。陈子冲博士现在是九号旗下的割草机品牌未岚大陆(Willand)的总裁兼 CTO 。这两个人对于国内的工程认知和想法前沿性,包括对我的成长都有很大的帮助。所以对我来说,我看的更多的是个人,而非一个企业。
有幸的是,九号在这几年作为一个很大的平台,也给了我们这些工程师很多施展技术和梦想抱负的资源,而且在这家公司里我看到和学习到的东西远比同龄人多。因为恰好是在一个高速发展的工程领域的公司,也赶上它的黄金发展年代,对认知的拉升是不可磨灭的。
卫诗婕:定义一下黄金发展年代长什么样?
秦玉森:当一个技术人员、工程师,看到限制技术的不是技术本身,这件事情很多人终其职业生涯都看不破。我在那时候看到了限制技术能力的,有团队管理能力、有公司的财务经营情况,有市场、有上下游供应链、有商业本身的洞察,如何传导到产品,再传导到技术,中间的每一个环节都会影响你技术抱负是否能实现。你想改变世界,或者使其他人生活变得更美好,中间不可或缺的就是商业因素、管理因素、产品因素,甚至是怎么把技术的话语转化成更多人能听懂的话语。
在技术疯狂增长的时期,你会意识到什么可以让技术发展得更好,什么让一个工程师从贡献代码,变成把上述的商业产品作为杠杆真正影响到世界。可能很多人认为我在杠杆上加力就可以了,但是那些给予人成长和改变工程想法的、综合的东西才是那个支点。在较慢发展的领域里,容易出现技术自嗨。
很多工程师会在工作 3 到 5 年时实现高速成长,然后进入倦怠期。理论上来说,个人的成长不是一条延长线,是成长、衰退、反思、再成长的一个循环,就像达里奥《原则》那本书里描述的,它是一个进步、遭遇挫折、反思再进步的过程。我在过程中恰好经历了几次在技术和管理上的一些困境,又面临企业高速发展,给我很多面对挑战的机会,过程中,会一遍一遍地打破我自己原有的认知,进而去思考,如何让更大的一个愿景可被实现。
卫诗婕:当时遇到的技术跟管理上的挑战是什么?
秦玉森:第一,当你发现全世界最好的 CPU 也没有办法承载算法的时候,时间换空间,空间换时间,这就是算法的本质。第二阶段,人才的培养是有周期的,这里面涉及到软件管理里一个概念,「人月神话」,大意就是一个女性可以花 10 个月孕育一个孩子,但是不可以让 10 个女性花一个月孕育一个孩子。技术发展和工程的落地都是遵循这样的规律,那就意味着你要去做很多前置的思考。
不是资源给到了,技术就一定可以出来。怎样做好管理很重要。
所以我当时从工程师变成了架构师,架构师讲的是恰如其分的设计,在正确的时间交付正确的东西,且在你交付下一个正确的东西之前,它可以一直存续,这样你会把一个更长久的无限游戏拆成一小段来玩,而且每一次你都会面临用当下有限的条件做出有限的产出,用它作为一个阶梯去攀爬下一个。
卫诗婕:从工程师到架构师,更挑战的是系统搭建和拆解的能力?
秦玉森:我觉得应该是认知从线性变得更立体。线性就是技术和更好的技术。架构师是有技术架构、人员架构,时间架构、协作上下游的架构,甚至还有一种很朴素的架构,面对未来我怎么把它拆成一个一个时间点?它们可能是完全不同的东西,面对时间复杂度的一个架构拆解。
卫诗婕:你在九号待了将近 7 年,这 7 年整个机器人行业的发展是什么样的?
秦玉森:最开始是SLAM (即时定位与地图构建)技术在发展,其实就是导航,从 A 点到 B 点的运动能力为主。这使得导航为主的机器人开始萌生——比如物流仓储机器人、扫地机器人,大疆为主的无人机导航也是在那个时间点开始逐渐繁荣兴盛。
直到今天,大家想到机器人第一反应肯定是运动能力,从能走路变成能跳舞、能打拳、能翻跟头。
卫诗婕:但是还多了很多感知决策。
秦玉森:是的,彼时是轮子在二维空间或者是无人机在三维空间内运动,配合感知作为辅助。今天其实在从感知为辅助变成感知和强规划为主导。
卫诗婕:而且现在的感知也更强调多维了。
秦玉森:本质还是今天传感器成熟了,算力也更强大了。曾经我们也想做这些事情,但是算力不允许。
卫诗婕: 2022 年为什么离开九号?
秦玉森:九号上市让我看到了 EBIT ,就是除息净利润后的财务情况,过度的预言和对机器人技术的等待,让这件事变成了一个信仰,而非商业。
卫诗婕:而且可能是掣肘一家上市公司财务表现的元素,是吗?
秦玉森:彼时彼刻听到比较多的是要向股东负责。在那个时间点我充分意识到了一个问题,大模型时代来了。 2022 年的六七月份,应该是 GPT 2.5 出来,我曾经在本科的时候实验室是做 NLP 的。当时意识到,所有的故事变了,因为以前是做填空题,当时大模型是 next-token-predict,预测下一个东西是什么。
卫诗婕:从符号到神经。
秦玉森:对,那个时间点,我觉得机器人应该从以导航为主、 SLAM 这种技术驱动,变成可能让它更聪明,这是 timing。所以当时离开,一是我想去追寻一些不一样的东西。第二其实是想静下来思考,外面的环境在变化,在一家公司内部是没有办法推动整个行业快速发展的,我想出来思考,外部发生了什么,需要我去做什么。
你永远等不到一个时代的浪潮,你需要去追寻。
卫诗婕: 2022 年底 ChatGPT 出现的时候你在干嘛?
秦玉森:那个时候我在做 agent ,不过当时大家聊的 agent 以记忆为主,今天叫 RAG ,当时比外挂知识库可能多一层,还包括了推测控制,其实是让 AI 在有限的幻觉里面去幻觉对的事情,就是所谓灵感。
另一个我在做的事就是报考了清华经管,产业创新 MBA ——原来在企业里,是优先条件下做最优化,但是创业是无限条件下不存在最优化,而是你要追寻什么,也就是俗称的战略。
那个时候正好读到我后来的导师朱恒源老师那本书《战略节奏》,如何洞察,不同产业发展到某个阶段会出现哪些事情。我当时很认真地读了书之后,觉得想认真地去学习一下,回炉重造,以便判断技术是否到了拐点,产业如何变化,怎么去抓那个合适的 timing 。
卫诗婕:技术的拐点从什么时候开始?有哪几个技术拐点?
秦玉森:我觉得已经到了。朱恒源老师的 PRIM 框架里提到,当投融资市场和上游供应链,它产生结构洞——你可以理解为当需求大量的不被满足,当供应能力开始溢出,就一定会催生新的行业、新的事情的发生。其实从去年春晚,宇树的运动能力展现,再到今年春晚不同家具身企业的展现,(可以发现)肯定不是每个电机都是各家自研的,肯定不是每个动作都是各家自己从数据采集到训练、每个细节都是自己做的,其实会有很多外部产业链的合作伙伴在配合。甚至我不客气地说,大家训练的大脑肯定不是大家自己造的。这样成熟的上下游,使得这一波工程师的聪明才智能够让大家看见,且给整个社会释放信号,可能机器人的时代已经到来了。去年我还说过机器人行业是要坐冷板凳的,但今年我觉得其实不是,(诗婕:现在板凳太烫了),对的,甚至可能不是板凳而是沙发,坐起来更舒服。
卫诗婕:从去年春晚到今年春晚,背后是供应链溢出的一个体现吗?
秦玉森:我觉得是需求预期的牵引。大家有时候说泡沫,其实泡沫就是预期和现实的差,当然这个定义不太严谨,但是你会发现大家预期机器人这个事情会变得更大、更快、更强,就是所谓人类的奥林匹克精神,这些预期一定会带来生产力的变化,之前不够大、不够快、不够强,也可能不够高、不够灵活、不够敏捷。那么工程师就先改变这些瓶颈和约束,当然,被突破之后只会带来更多的瓶颈,这中间的 gap 又能让工程师们一路兴奋,一路想推进。
卫诗婕:所以在你看来现在黄金时代到来了吗?
秦玉森:我觉得它已经来过,PC 的黄金时代根本不是 1990 年之后的那一波,而是 Macintosh ,1980 年代就有了拐点,永远在它真正产生社会效应之前。产生社会效应的时候,其实是浪潮已经到了,它不再是个拐点了。
漫谈Light the Star
PART THREE
具身 vs 自动驾驶的人才大战
一个历史的轮回
卫诗婕:具体到具身行业,拐点在什么时候已经发生了?
玉森:年轻人的从业者,更多新毕业的同学进到具身领域,而不是自动驾驶。
卫诗婕:这个时间点是在什么时候?
秦玉森:去年(2025)。原来做机器人的人从 2015 年到 2018 年都是在做机器人,到了 2018 年前后,自动驾驶差不多以两倍的薪酬挖原来做机器的人,甚至高出原来对应硕士和博士同学的(薪资)——比如做 SLAM 、运动控制规划、地图、感知的这些人。今年的具身也是一样的,所以可以看到大量做自动驾驶和机器人、无人机的人就冲到了这个行业里。
卫诗婕:印象特别深,差不多也是去年春天,具身融资很火热,这个行业吸引了非常多的资金,然后出现了你说的「大量的人才流入具身」。所以看上去好像是这波具身抢了自动驾驶的人,其实更早之前,是自动驾驶抢了具身的人,它是一个历史的轮回。
秦玉森:是的,你可以理解为以前机器人是个偏通用、偏广泛市场的状态,主要是 to Developer 、to 研发者和高校,突然间,一个更垂类的领域——自动驾驶出现了。它存在着一个商业加速技术的完整闭环。所以大量人才流向自动驾驶。
那么今天也说明另一件事,具身智能的商业闭环雏形已经展现了,所以大家为了那个更大的商业闭环的愿景,所有人都 move on,继续在更新更大的一个故事里面去做自己的事情。
卫诗婕:现在这个采访发生的时间节点,整个具身行业都是 10 亿 10 亿地融,今年的春天比去年的春天更火热,为什么大宗的标的发生在现在?
秦玉森:有两件事情,一旦趋势形成,大家只会去追;第二就是今年的春晚让大众对机器人的认知快速的破圈,形成了一个更高的预期。
卫诗婕:去年宇树机器人扭秧歌,不是已经破圈了吗?
秦玉森:你站在今年看去年,会觉得那还挺原始的,挺简陋的,对吧?
卫诗婕:宇树不停地在推动行业进步啊。
秦玉森:我觉得是的,那一批真正有梦想的,眼里有光,心里有火的人,他一直都在为了较远的愿景去做事情,其实外部的声音也重要,但也没那么重要。
卫诗婕:其中一个因素是大家看到机器人的进步真的是飞跃式的,从去年可以扭秧歌,到今年可以打武术。
秦玉森:这就是资本泡沫带来的好处,可以让这个行业快速地试错和试对。以前我在做工程师和架构师的时候,是面临有限资源——面前三条路,我需要不断地论证,不断地思考,甚至再带一点点的赌性去赌某一条技术路线可能是对的,而且没有人告诉我另外一条一定是错的,所以我有的时候会撞到南墙,再回头选一条,这个学费是一定要掏的,但今天市面上这么多的公司,每个人都选了一条不一样的路,当某一个领域、某一条路上发生大的突破时候,大家会快速地形成共识。试错和试对都是一样地迅速。
2022 年的时候,我认为机器人还在转型期, 2023 ~ 2024 年,我觉得大家快速形成共识。 2025 年,我们认为当时每个月的整个行业的技术进步,都快于之前的每一年。因为同时铺在这个领域的人更多了,十倍的资源,甚至可能带来百倍的进步。
卫诗婕:2025 年基模的很多能力也在快速跃进,机器人背后很多工程能力、算法能力,背后是 Coding 技术飞速跃进。所以两个优势:一个是高饱和的资源带来快速验证,另外一个技术本身的飞跃进步缔造了这个行业神话一般的繁荣。
秦玉森:大模型还带来了一个特别好玩的点。以前的工程师,尤其机器人工程师,你要去熟悉一些机械电子、嵌入式、软件、算法、云相关的技术,因为你一个个项目来累积的话,可能需要 10 年。其实哪怕每一个项目浅尝辄止做一年,你发现这些东西做下来要 8 年。但今天大模型可以让你忽略掉一部分,比如软件,一部分云的知识,甚至当你需要的时候,你可以定向的获取这些知识,这使得你获取知识的效率极其的高。
卫诗婕:知识平权和经验平权。以前培养机器人行业的一个老师傅得 8 年的时间,现在可能快速的压缩到两三年?
秦玉森:甚至都不是老师傅,一个入门级的工程师,以前都需要 5 到 8 年的时间去培养。
卫诗婕:今天我们看到 AI 行业也好,具身行业也好,都是非常年轻的 95 后、 00 后工程师,可能刚工作就已经可以上手了。
秦玉森:因为本质认知是有局限性的,人们常说一句话「成就你的,必将毁灭你」。当老一些的工程师还在想说,量产应该过 12345 个验证,需要分别看 ABCD 关键点的时候,那边大模型已经吐完了—— 12345 只有 4 关键,你看 4 就好了。 ABCD 是很关键,但今天你可以不用管,先往前跑。
这个事情本质是,更多人类通识、工程学的通识被大模型做处理之后,能让你更 focus 在你关心的话题上。你一旦聚焦,进步是速度飞快的。大模型本身会让你的注意力和状态进入这种心流探索,而年轻人脑子里的噪音更少,限制你的经验更少,限制你的社会认知也更少。没有那么多条条框框的时候,自然跑得更快。
卫诗婕:所以你也认可这种声音吗,在 AI 和具身时代,年轻人更有可能会成为 game changer ?
秦玉森:我认为每个时代都是。因为人类的智力分成晶体智力和流体智力。 35 岁是个分界线,35岁之后,人的晶体智力更好,就是举一反三,通过过去的经验去折射和一定程度猜测未来。流体智力则是快速接受知识、传递知识,影响自己的整个技能。我一直认为做更新、更先进、更好的东西就是 25 岁到 35 岁这段黄金年纪。那就 Echo 回了我说的,在黄金的工程师的年代,碰到了一个高速发展的公司,是我的幸运。
漫谈Light the Star
PART FOUR
机器人美在不成熟
行业重复造轮子、三大派创业与行业脚手架
卫诗婕:机器人肯定是你的兴趣,你觉得机器人到底美在哪?
秦玉森:美在它笨,美在它不成熟,美在不完美。因为越聪明,改造成就感会越弱。
卫诗婕:兴趣是来源于人类的虚荣心啊。
秦玉森:或者说来自于成就的反馈。
卫诗婕:2023 年到 2025 年, AI 这个大领域里资本非常充沛,你为什么没有选择自己创业?听说当时几乎所有具身顶流公司应该都找过你。
秦玉森:彼时彼刻,我想看到的东西都看见过了——机器人从想法、概念再到落地,要解决哪些工程问题、产品问题、商业问题。我就想帮助更多的人快速完成他们的梦想,因为我在之前那么多年里,痛苦就是做任何事情都没有成熟的趁手的工具,每一次想写代码的时候,恨不得要从装电脑开始。
在自动驾驶领域,大家知道有个核心技术叫 OTA ,如果没有 OTA 就没有迭代,大家今天说数据驱动、迭代驱动都是靠这套逻辑去运转的。我就在想,什么是机器人领域的 OTA ?变化反馈的周期越短,个人的进步就越快,产品发展的速度就越快,就能让机器人更快走到千家万户。
卫诗婕:所以地瓜要做基础设施,把开发者门槛降得更低?
秦玉森:其实是把一些能力外显,让更多的人能够接触到机器人开发。其实手机很早就有了,直到安卓、 iOS 把系统开放出来,让开发者或者一家公司从 30 岁变成 24 岁、 18 岁。所以你发现早些年的 iOS 、安卓开发大会,说最小的开发者是 13 岁, 14 岁,就是因为当门槛变低之后,创意就会爆发出来,而降低门槛、爆发创意、面对更多的细分需求和整个行业的高速发展,它是一个必然的过程。
卫诗婕:今天机器人开发者的年龄门槛在多大?
秦玉森:地瓜在做的很多赛事覆盖小学、中学、高中。今天中国的教育,尤其在 STEAM 教育领域,其实是更领先于整个时代的,这也符合我们国家本身对于综合素质教育和动手能力的鼓励。所以小学生玩机器人很常见,甚至我自己家宝宝有一个小的机器狗玩具,才一岁半,他会叫爸爸妈妈、爷爷奶奶,下一个叫突突,突突就是这个小机器人。
指导机器人做点什么事,其实就是一个玩的过程。我自己比较大的这个孩子, 3 岁多一点,他认为编程和搭积木是一样的,而且今天有大语言模型的存在,有各种 coding plan 的这种加持,还有 iPad 这样非常友好的 GUI ,构造和建立东西变得非常的容易。
卫诗婕:机器人领域,空气、土壤和水是什么?
秦玉森:我自己理解,其实第一件事是知识的传递,所以我们也在做一些垂类模型,能够让机器人工程师开发,还有我们在做的一些东西,可以类比成开发板上的一个类似于 Claude code 一样加速研发的东西,同时也有整套的像 RoboGo ,包括我们自己的一站式开发平台,让一些算法工程师 3 ~ 5 年做的事情,可以很快通过一个小时培训,让一个大三、大二甚至大一的学生在一个小时内学会。这是我们在做的一些开发平台的工具。
卫诗婕:开发平台和工具面向的目标用户,除了你刚才讲的普通人,还包不包括今天在争抢产品速度的这些企业?
秦玉森:我认为有,但是有些企业实在是太强大了,以至于它自己什么都想做,因为资源的饱和溢出是让它不介意重复造轮子的,而且它造一个更适合自己的轮子其实也有它的优势。
我这边其实商业模式上是 to B 和 to C ,但是产品其实只有 to D ,最大的 developer 就是 CTO 、CEO 。中间算法、软件、机器人的技术 leader ,初创企业的创始人,高校的小创客,独立活跃于开发领域的创客,包括一些准备创业的人,也有可能是客户。
卫诗婕:但大中小所需要的工具差异会不会很大?真的能都做吗?
秦玉森:其实差异很大,但是特别好玩的点是取公约数,因为你的目的是防止重复造轮子。对于每一层的人来说,其实是有一些通用的需求,需要人去支撑的。最差的一层支撑叫知识本身,怎么用好地瓜的芯片、开发板、加速单元,这些知识本身的传递就可以通过这样的方式去降低它门槛,让他们快速的去用起来。
卫诗婕:你刚才讲机器人需要的能力非常综合,从硬件、软件,包括中间层。在基模层和应用层之间还有一个 Infra 层。 Infra 这一层的人才其实是非常稀缺的,很难跟现在最头部的模型公司抢人才。
秦玉森:其实是的,因为本身只有当行业高速发展的时候,才会催生对 Infra 的需求。之前汽车行业的高速发展,对汽车的数据闭环的 Infra 提出了一次挑战。大模型的时代又对大模型集群训练提出一次挑战,但是这两次的窗口都很短,使得对应的人才在使用市场并没有那么多,而这些人隐性知识,或者是非显性的写代码知识更多,市场的供给就出现一个巨大的空缺。
卫诗婕:为什么 Infra 层只有在行业高速发展的时候才能够发展?
秦玉森:因为首先 Infra 服务的是业务层,如果是算法,那这些人是说让算法人员能效更高,做事情做得更快。但是当行业发展很慢的时候,他们是没有这种强竞争感的,只会选择公司层面综合 TCO( Total-Cost-Ownership ) ,全生命周期费用里更低的一个方式就是这些做算法的人自己去做 infra 。
我们之前的每个团队都是这样,可能会变成上半年做产出,下半年做产能。到今天就会发现只有高速发展的行业,才会一拨人专门做产出,另一拨人专门为它做产能,从商业上来说也很朴素。只有做得快,有直接竞争价值的时候,才会有人为了快而服务和买单。
卫诗婕:所以地瓜是把具身行业的 Infra 层给封装了。
秦玉森:或者说是机器人行业,因为具身在真正的前沿技术上并没有收敛,我们也不太确定所谓共性的部分到底长什么样子。
无论你是做具身智能还是机器人,一定免不了理解硬件相关、系统芯片相关的能力、软件相关的系统和调试机器人的能力,以及怎么去快速迭代研发的能力,我们会把这些封装成一个个应用,加速大家的使用。
卫诗婕:也就是说你看好机器人未来的市场前景,但机会多大程度上属于具身,这不太确定,是吗?
秦玉森:我认为具身是现在做技术的天花板突破的状态,每次天花板突破之后还会有一些技能、知识和体系的溢出,这个溢出会填补原来某个未被满足的需求。举个例子,大模型能力的溢出填补了曾经做同传高速翻译的口径,使得较中低质量的同传需求被大模型就满足了。编程也是,代码也是,今天其实架构师被替代的并不多,只是写功能性的代码的人已经被大模型高速地替代掉了。
卫诗婕:你怎么看现在具身行业这么热?
秦玉森:它应该这么热,因为这个时代就到这里了。今天面临的几件事,第一,原有的技术和生产力面临挑战。第二,智能本身已经突破了原来认为的临界点,比如说图灵测试,那就需要一个载体和窗口,让模型的智能走到真实的世界中获得反馈,而这是具身智能里“具身”的意义,具身智能是人工智能和大模型这一波技术突破之后的某种外溢,以及发展方向合并之后的结果。
卫诗婕:地瓜是地平线上的瓜的意思吗?
秦玉森:大家有时候开玩笑会这么说。但更多的还是代表一种在地面下默默生长、有顽强生命力,在贫瘠的时候可以救命、能够哺育更多生命力的展现。国家领导人也会说地瓜是一种向四周蔓延生长,有存续生命力的样子。
卫诗婕:行业上游基础设施大量空白,对于地瓜来说有很多事情可以做,但从哪些突破口开始?
秦玉森:我们去年其实是在锚定传统机器人的智能化升级。今年锚定的是新兴市场如何被快速满足和验证,同时新兴市场也包含了一个非常大的群体——创客群体。我们今年做了一个叫 RoboGO 的产品,它就是让一个人快速拥有一个团队的大能力。这个服务可以帮你做算法、数据、仿真,可以帮你在仿真里做训练,也可以帮你去管理你现有的训练好的模型,管理好你现有的开发板、大脑的载体,所以也叫一站式开发平台。
卫诗婕:要孵化更多机器人界的 OPC(一人公司) 。
秦玉森:赋能,我觉得孵化还是说的大了一点。
卫诗婕:为什么会有这样一个转变——从锚定传统机器人公司,到锚定具身智能公司?是不是因为具身公司现金流很充沛,也都在争抢产品速度,所以是一波非常优质的客户?
秦玉森:不完全是,但是客观规律确实是这样的。去年我们更多是锚定较确定性的业务,今年的认知是,一些固有认知在多变的复杂的环境下已经失效了,在这种失效的情况下,你会去拥抱那些变数更多的人。
每一个时间节点技术本身的底层逻辑变化,可能会使得你的脚手架搭错了地方。所以要迅速跟上。
卫诗婕:这在我看来已经释放了一个信号,可能一些行业或者客户已经被筛选掉了,要找寻那群通往新大陆的最高速、最高效的人成为你的合作伙伴。
秦玉森:我觉得更多的还是进化,因为本身商业和技术都是适应环境、改造环境的过程。大部分的人如果在这种高速变化中不愿意高速地改变,甚至不愿意承认时代已经到来了,有些东西变了,不愿意去思考,那我们就尊重每个客户的命运。
卫诗婕:具体失效的部分是什么?
秦玉森:很朴素,今天导航这件事本身不再约束机器人了,甚至脑子里面想着机器人一定要导航的人,根本就不会看到靠遥控也可以走得很好。曾经大家会认为,如果做不到端到端的指令发布,就不应该做成产品化——但过去这一年,很多商业展演都是有个人在遥控。
所以今天不应该再拘泥于环境感知能力、导航控制能力,而单纯说我到底能带来什么价值,这个认知就是个巨大的 gap 。那些想着技术完美才能进市场的人,就一定看不见市场,吃不到技术红利。
这也是为什么,具身的第三波才有自动驾驶(派)冲进来,因为他脑子里已经是端到端 L4 的形态了,而今天很大一部分的机器人还在 L2 和 L3 之间纠结。
卫诗婕:你觉得具身行业现在重复造轮子的情况多吗?
秦玉森:还蛮多的。每个人都说要自研电机。电机就是三件事,缠线圈、写电控,以及把它弄个壳子过验证。为啥每个公司都做一下这个事?甚至你可以看到很多的电机代工厂赚得盆满钵满,还有 CEFCC 认证检测机构也赚的盆满钵满,但我觉得这个资源是稍微有些浪费的。
卫诗婕:这是 for 资本的动作吗?
秦玉森:不是,其实本质是这些人追求极致,所以他忍不了任何一点,不是为了我的性能服务的参数。
卫诗婕:以及可能想建立自己的竞争壁垒,比如宇树,大家都看到他自研带来很多优势。
秦玉森:对,他自研是因为(当年)他没得用,但今天大家是有的用,如果这样的话,每个做具身智能大脑的公司就应该从芯片做起。但其实大可不必。或者说大家还没有真的找到真正的核心竞争力——当一个人觉得自己什么都能做且什么都想做的时候,大概率是他不知道自己真正的使命和愿景。
卫诗婕:那你觉得具身企业的核心竞争力应该是什么?
秦玉森:我觉得每一个企业要找到自己那个唯一,而不是我可以。
漫谈Light the Star
PART FIVE
民族的自信,
让大家敢于做一些,过去不敢做的事
卫诗婕:英伟达也围绕具身做了非常多的布局,也是打造基础设施。你们跟英伟达在这件事情上的角色有什么差异?
秦玉森:(差异)还蛮大的。因为站在从业者角度,「天下苦英伟达久矣」。他把每一件事情做了,又做的没那么充分。他站在极高的上游视角去看待整个行业,所以可能做到 60 分、觉得可以用就扔出去了,但是实际上每家公司又会做一次重复性的劳作的整合。
举一个好玩的例子,大家最常见的仿真,它的版本号几经变化,是为数不多不做向前兼容的软件。过去当新的版本来的时候,你要重做一遍,这就会呈现出大量浪费的重复劳作。我们做的事情和这一层还不太一样,因为我们也会用英伟达生态上的工具和各种东西服务用户,其实就是在把英伟达做到 60 分的东西做得更好一点,可能有 80 分、 90 分,让大家做更少二次整合的工作,更丝滑地去更新版本。
卫诗婕:前段时间 GTC 我找了国内做国产芯片的朋友(《第 64 期:与宁慕楠聊具身、Seedance2.0,行业幕后与未来》)来做客,他也提到,英伟达今天做的是最高端的、大而全的产品,但普惠的产品是下一个时代必须的产品,这件事情他认为英伟达无暇去做,或者英伟达已经走上了那个大而全的道路,无法再折返了。
秦玉森:我有类似的观点,其实你就看英伟达的各个领域的营收就(一目了然)。原来自动驾驶和机器人都归为一个最小的 「others」 ,可能一共占百分之一点几。今天自动驾驶多了一点,可能占 3% 。具身机器人是远小于 3% 的。作为任何一家企业,面对这样的市场,哪怕增量再大,一定还会有内部资源协调不充分的情况。
另一件事是太多的、新的、快的客户在中国,英伟达离中国太远了,这件事本身也会造就一些问题,所以综合这些点就一定会出现地瓜这样一个生态位的公司。
卫诗婕:目前自动驾驶加机器人仍然是一个很小的份额。但突破一定临界点之后,整个劳动力市场、消费品市场的需求会指数级上升,那个远景你觉得会在多久之后发生?
秦玉森:站在技术的视角,我觉得那个远景受限于硬件本身,会有一个 12 到 18 个月的制造周期,还有人们接受事物的周期。我估计没有去年和今年春晚对机器人的宣传,这个时代可能还会来得更慢一点。今天看到的一些产品和创业公司,两个 18 个月会让一个产品迭两代, 3 年后一定会出现大规模爆发。
卫诗婕:王兴兴书,长则 5 到 10 年,快则两三年就会迎来一个机器人爆发的时代。你认为呢?
秦玉森:我其实去年也发表过类似言论。加速首先受客观环境的约束,但是你会极大的乐观,因为今天这个领域是过饱和式的投入,这种情况下一定会使得那些曾经试错试对的周期大大缩短,因为其实今天各家在路线上很少有人提出什么完全不一样的领域,决定再做 3 年或 5 年。
今天大家都是快速趋同,快速把技术一个个推进过去,让产品和场景变成瓶颈,通过让产品快速进入,来得到后续市场反馈,进而迭代。
卫诗婕:回到刚才那个跟英伟达对比的问题,你的答案是在一些需求和场景上面,会想办法做的比英伟达更好。
秦玉森:我觉得英伟达站在上帝视角在看事情,我们还是愿意作为这个行业中的一员,在推动这个行业再往前走。
卫诗婕:在中国你看到有哪些(具身的)优势,这些优势能够保持在多大的一个窗口之内?
秦玉森:如果说制造业和整个产业链,它的核心是人才。首先国家的发展、民族文化的自信使得大家愿意相信,我们能诞生最好的一些行业,我们的产业能行,能成为最好的工程师,这种自信感使得大家敢做一些不敢做的事。最近比较火的张雪机车,其实是这样的一个典范。别人不敢想,那我们可以做。去年 DeepSeek 干的事也是一样的。
中国有着全世界最大的工程师技术群体,这些人需要被组织起来,需要被愿景和远景吸引,去形成合力。所以今天会发现那些很成功的、科技类的企业家,他们本身是自带远景和愿景的。今天美国出现 copy from China 的时候,大家就应该相信,我们(中国人)是最好的一批工程师,能够做出满足未来美好畅想的一些内容。
漫谈Light the Star
PART SIX
机器人时代的第三朵云
阿里云的过去、现在和未来
卫诗婕:上半场我们主要聊了机器人时代,今天还邀请了地瓜的伙伴,阿里云终端智能计算事业部总裁张献涛博士一起加入访谈。据我所知,您 2014 年就加入阿里云了?
张献涛:当时抱着对云计算的梦想加入了阿里云。前 10 年基本上都在做云计算相关的工作, 10 年之后,也就是 2024 年,开始负责终端智能计算。
卫诗婕:为什么押注智能终端计算?
张献涛:我在 2019 年开始看到了一些终端计算方面的机会,整个算力我一般把它分成两个市场,一个叫数据中心,一个叫终端。 2019 年之前,整个阿里云更加聚焦于做数据中心的算力上,云让更多的企业以更方便、更低成本的使用算力去解决自己企业的算力需求,但在做的过程中,我们发现另外一个巨大的算力市场其实是终端领域,比如像电脑、手机、汽车、机器人这些场景。
2019 年是阿里云成立 10 周年,我们积累了大量的云计算相关的技术,比如计算、存储、网络、安全、数据库这些方面的能力,其实更多的原来是 for 数据中心算力上云,但是我们怎样能够把这么好的技术用到终端计算领域?深度思考之后,我们开始做了一个新产品,当时叫无影云电脑,简单来说,当我们有能力把云计算的成千上万核的算力赋能到一个终端上面来的时候,终端能干的事就多了很多。
当时我们就把智能终端计算视作一个很重要的战略来执行。当然随着过去的这个两三年大模型领域的一些发展,我们也看到了终端计算和 AI 有效的结合之后,其实可以带来更大的前景。
在今年年初,我们从原无影事业部改成了终端智能计算事业部,更多的人希望终端计算和 AI 能够进行深度的融合,能够在具身智能领域,或者说在汽车,在一些新的 AI 终端领域都可以带来一些巨大的变化。
卫诗婕:为什么 2019 年之前,端侧上云这件事情很难?为什么 2019 年,事情开始发生了一些变化?
张献涛:端侧的云计算更难一些,或者说它对整个的基础设施的要求,产品的体验要求可能会更强烈一些。
我们就拿云电脑这个产品来讲,需要的是终端用户能实时和云上算力进行交互。也就是说我们在使用一台云电脑的时候,它和使用一台本地电脑的体验应该是要保持一致的。不是说算力的保持一致,而是说它的延迟、响应要保持一致。
这里面有一些关键要素要突破:首先网络可能要足够的好,那么 5G 技术的发展,在 2019 年这个时间点上发生了。
另外一点就是阿里云从 2016 年就开始布局技术方面,云端之间的传输协议在 2016 年就开始进行攻坚。 2018 年成立达摩院,很多专家也都参与进去,这个协议的研发在 2019 年达到了初步成熟的阶段,为终端云计算的到来带来了非常好的开端。
卫诗婕:下一个终端时代,应该有一朵怎样的云?
秦玉森:云边端中间的「边」,也就是开发者线上开发主要用的是 Linux ,用的是乌班图,上面可以安一个 ROS 再做开发。但是我们看到今天的学生只要开发机器人,都一定是笔记本上装个双系统,做一点什么工作都要来回切——因为他日常的教学或工具可能会使用 Windows ,开发机器人就要切回到乌班图里面,这件事本身就很困难。
第二是做机器人一定免不了算法,需要一台比较强大的 GPU ,但是有很多很强的 GPU 能给到每一个学生的高校并不多——学生们不太可能为了做一个算法实验而去配备一个强大的 GPU 算力。
另一方面我们发现,老的工程师习惯登上 Terminal 去一个集群里面做事情——因为那时候没有好的云桌面。但是今天有了,强大的算力和超强的可用性,在今天的云桌面上被满足了。所以打通了「云端边」中,「边」的这个需求。
我们现在提供的能力,能够让机器人开发的开端,从一个人前面环境配置的四五个小时变成了四五分钟,这是天壤之别。 5 个小时可以劝退很多人,但 5 分钟可以激励更多的人。
卫诗婕:地瓜和阿里云的合作,其实很像一些 APP 在手机里面做预装,地瓜的一系列开发者工具和系统,也是预装到无影云电脑里,是这样吗?
张献涛:对,他们是把自己的软件或者模型放到云上,因为云电脑其实天然可以提供一个模板,在这个模板里我们一般叫镜像。里边可以把很多软件预装进去,终端用户拿到的时候,点一下鼠标,就已经是一个开箱即用的东西。
卫诗婕:这一整套下来要多少钱?
秦玉森:反正我们自己的开发者会有一些培训机器人的算法,一般他们配置的实验课就是 8 个小时,成本会压在 200 块钱以内。
张献涛:我们确确实实也看到了,像地瓜机器人这样的非常多的公司,尤其是这两年的电动汽车以及具身智能行业——他们非常需要这种算力。汽车行业更多的是要模拟一个车机芯片,比如他们要座舱和智驾舱一体开发,就需要非常强大的 GPU 的算力能力,上面跑的都是端侧的算力。
也有比较多的像地瓜这样的公司给我们提需求,希望给他们的开发者提供一个开箱即用的 AI 工作站,有这么多的客户给我们提这些需求的情况下,我没有理由不开发一个能让他们觉得好用的产品。所以大概从前年,我们开发 AI 工作站的产品,也像无影的其他产品系列一样,可以被有效的集成。
卫诗婕:所以其中有一个信号,阿里云作为行业的头部代表,当你们也认定这是一个大的需求方向的时候,说明——第一,开发者在指数级变多,第二,开发时代真的已经来了。
张献涛:确实,这个领域正在变得很火热。
卫诗婕:过往的云,是基于互联网和移动互联网;AI 时代的云需要重构吗?
张献涛:现在 AI 变革的各个行业都在对云的 I 层、 P 层和 S 层,提出一些新的需求。
可以说是在重构,因为在移动互联网时代,大家更多的是 CPU 这种云就够了,但是在 AI 大模型这一波,我们看到的更多的是一些对于大规模 GPU 的需求。在 I 层,我们可以看到 AI Infra 已经成为这个行业或者说这个社会很重要的一个课题:怎样能够更高效地提供更物美价廉的 TOKEN ,能给更多企业在 TOKEN 经济下输送这个算力支持。
当然 SAAS 层面就是我们刚刚提到的,智能体在过去的几个月非常火, 2025 年是智能体元年。另外一点,我们也看到基于 OpenClaw 这种项目,也有越来越多非常优秀的智能体的产品被研发。我们上个月也发布了一个叫 JVS Claw 的产品,让大众都可以很轻松地用这个产品去养虾,只需要在手机 APP 上下载。
卫诗婕:Agent 时代的架构应该长什么样?
张献涛:Agent 对底层基础设施的要求没有大变化,但 Agent 会消耗大量 TOKEN ,TOKEN 加云电脑其实组成了整个 high level 的架构。
这里边再往更深层看,Agent 里边有记忆系统。有模型工程、记忆工程、上下文工程,或者说提示词工程,那这几个方面其实组成了整个 agent 需要实现的能力,这几部分的能力整合在一起,就变成了一个相对比较完整的 agent 架构。
漫谈Light the Star
PART SEVEN
Token 经济、TokenHub &
机器人「做梦」
卫诗婕:您怎么理解 TOKEN 经济这个词?最近几个月很火。
张献涛:上个月我们成立了一个组织,叫阿里巴巴 TokenHub ,把阿里巴巴集团所有和 AI 相关的组织都放里边,是大厂里边第一个提出要把 Token 放到这样重要位置的一家公司,你可以认为 Token 是最基本的一个算力单元,也是能够驱动 AI 经济往前发展最重要的动力。所以未来 Token 一定会成为非常重要的一件事情。
卫诗婕:它会像水电一样成为生产力的基座单位吗?
张献涛:其实现在你深度去看, Token 的输送已经和我们今天说家庭使用的水电没有什么区别了。 agent 拿着一个 API key,有 TOKEN 的驱动,它就可以干你希望它干的事情。
卫诗婕:TOKEN 应该由哪些要素构成?
张献涛:一是底层刚刚提到的 AI Infra 效率决定了 TOKEN 能够生产出来的效率,进而决定你的成本。所以各家云厂商都非常关注 AI Infra 整体的构建,你拿到相同的 GPU 资源的时候,怎样又可以生产出来更多的 TOKEN ?或者说在相同的时间内,你可以生产出来更多的 TOKEN ,速率可以变得更好,这个是对底层的要求。另外一点确实模型也很关键,你训练出来的模型在推理方面的效率表现也决定了生产 TOKEN 的效率。所以基本上从芯片,到基础设施,到模型,这些都和 TOKEN 是在一条线上面。
卫诗婕:所有要用到 Token 的大业务部门,应该都是要进入这个 Hub 的是吧?最终是希望探索出一个经济学,能够把 Token 最高效地使用?
张献涛:对。比如通义实验室,做出了世界领先的Qwen开源大模型。比如像悟空事业部,把 Token 变成一个可以在日常工作中使用的智能体,希望联合这些团队的力量,从 AI Infra 到所谓模型,以及在 C 端和 B 端方面的一些应用,把整个链条上所需要的东西很高效的连接起来,能够给这个社会提供更好的 Token 经济支持。
卫诗婕:开年 Openclaw 爆火,你们有观察到什么开发者现象吗?
张献涛:我一直说 Openclaw 可能是通向未来 AGI 的一个奠基性的项目——因为它是开源,也能吸引个人开发者。个人开发者,其实没有屁股的,或者说没有所谓的大厂的一些立场。那么开源更容易被大厂们所接受。
在这种情况下,一个个人开发者就可以推动一波浪潮,开发者不容小觑。我们近期开发的 JVS-Cloud 就是希望帮助大家养虾,也希望推动这样一波浪潮。
另外,Agent 需要连接两个世界,一个是数字世界,一个是物理世界。基于这样一个判断,我们去年做了一个产品 Agentbase 。
卫诗婕:那具体到机器人行业的开发者呢?Openclaw 这一波有什么表现?
秦玉森:我们今年开源了一个项目叫 URDF Studio,就是 Universal Robot Description File ,统一的机器人描述,把机器人那个图纸描述成一个数字文件,放到仿真里面去,把它重建出来。以前这个行业叫 CAD 或者是 EDA 。这个产品是我们原来公司里一个机械工程师,顺手做的。现在变成了工具。
通过大模型的帮助,一些在校的学生和工程师,就可以把这样的一个开源软件做出来。
这个产品出来之后,大家从 Github 上加的群迅速膨胀到三四百人。其实做机器人的机械工程师并没有那么多。瞬间一些算法工程师非常开心,终于不用求那个机械工程师帮我干这个事了。
然后我们还做了一件事,是把 URDF 导出来之后放到仿真引擎里面,让机器人先学会走路、站立和行进,再由 agent 去调试电机参数、机械结构参数算法,这就把原来需要很多专业知识的手工、苦力活降下来了。
第二个事是张博说的 Agentbase,连接数字世界与物理世界。大模型的 knowledge base ,其实是基于电脑的,那哪些东西是机器人需要的?我们就把这部分的知识放到里面, 去调度端侧的芯片,机器人用的是一个云端大脑,Agent 去调试这个大脑,直到把它调通为止。这种交互我们开玩笑说是机器人的大脑做梦系统——因为白天它负责学东西,晚上人在休息,机器人就把白天遇到的问题、这些知识再沉淀,再去做架构升级,这时,一个外部的辅助 agent base 去监管,给一些控制信号、奖励的函数,让机器人的端侧也能够逐渐运转得更顺畅。这个我们叫做端云协同进化,也是后面可能会开放给开发者的一个核心功能。
卫诗婕:纵向对比一下,移动互联网那个时代,开发者层面发出信号的特征是什么样的?跟今天 AI 原生时代开发者的信号有什么不同?
张献涛: 我 2014 年加入阿里云的时候,当时内部有一个非常庞大的项目叫 「All in 无线 」。 2013 年还有 80% 左右的用户会通过电脑参加双十一,但是到 2014 年这个数值就在下降——移动互联网时代,很多人用手机直接通过 APP 下单。
iOS 、安卓的开发者当时在社会上是非常受欢迎的,去找工作的话,你可以看到他们都可以拿到一个非常高薪的 offer 。而这一波 AI,机器学习和算法工程师受到关注。
但本质又没有变。就是如何从用户、开发者需求视角去定义产品,怎样能在模型的开发、推理阶段,提供一个更好的 PASS 平台,让他们的模型能够部署上去,更加产生更好的 TOKEN ,是 AI 基建的底层。
卫诗婕: AI 原生时代的开发者画像,现在平均年龄在几岁?
张献涛:基模的开发、预训练加后训练更多的都是年轻人。做智能体相关的就比较广一些了,可能和年龄没有关系,是你对 AI 这件事情的认知,决定了你能不能很好的继续下去,更多看你能否驾驭好 AI ,使用好 AI ,做好相关的一些开发。
卫诗婕:移动互联网时代真正成现象、成规模的独立开发者涌现,在哪一年?
张献涛:2014 年到 2015 年。2014 年我们看到很多企业,尤其最早爆发的手游,对云计算提出了移动互联网时代的标志性的要求——算力的弹性要足够大、存储能力要足够大,网络的延迟,或者说网络每秒钟能够处理的数量都在呈指数级上升。所以在那个时间点上面,我们觉得一个可能新的时代到来了。
卫诗婕:你觉得 2026 年之于 AI,是移动互联网时代的 2014 年吗?
张献涛:有这种感觉。尤其是这两年,从 2022 年底生成式 AI 大模型爆发之后,大家都在卷模型,去年大家讨论的是 agent ,其实是大模型时代的应用范式,去年被认为是元年,今年应该是算爆发的一年。
卫诗婕:你不知道它是在一年之内爆发,还是在更长的时间内爆发?
张献涛:对,起码是个起爆点。
秦玉森:我有一个好玩的观察。移动互联网的爆发的时间点是 iOS 入职送 iPhone 。
为什么入职接 iPhone ?是因为大部分做 IOS 开发的人他其实也不太想买,但是入职送你一个,既是让你更好的工作,又是一个变相的福利。今年很像的点是,入职我们这里 Token 无限或者给你顶配的 CodingPlan 套餐,这和当年就很像。
另一个启示是,当年更晚一些的时候,大家有钱自己买 iPhone 了,甚至上一份工作已经送我 iPhone 了,那么送 iPhone 已经不再是个福利了。在未来有一天,无线 Token 不再是入职福利的时候,那么 AI 时代已经完全到来。
张献涛:我们前两年招 AI 方面人才的时候,人家问你有多少数据?你们有多少 GPU 的卡?今年就问,你们有多少 Token ?我觉得这个其实也代表了大模型已经进入了一个新的阶段。
卫诗婕:刚才张博讲的那两个时间点你认同吗?他认为 2014 年是移动时代开发者成规模爆发的时间点。
秦玉森:我觉得其实是 14 、15 、16 。因为一般大家会说过了初级工程师门槛是 3 年,正好是 IPhone 6 ,就变成了特别多的人都在用了。 那个阶段是 3G 到 4G+ 的时代,再往后, 所有能做的应用都已经做了,就是移动互联网的后时代了,或者叫短视频时代,也差不多 2016 年之后,入职送 iPhone 这事就没有人提了。
同一时间,大家对 iOS 工程师的需求好像也趋近于饱和。今天提供的 agent 也好, TOKEN 也好,仍旧是个相对稀缺和前沿资源。那到未来,当这个资源不再稀缺,也相对饱和的时候,我觉得这个时代就真的已经过去了。所以我觉得要珍惜当下吧。
漫谈Light the Star
PART EIGHT
端云结合,让机器人「做个梦」就进化
弱智能也有无限的想象空间
卫诗婕:Agent 负责把一种智能(基于互联网知识的智能)翻译为另一种智能(机器人能够理解的智能),让端侧能够高效吸收。
张献涛:具身智能的需求能很好地体现我们一直所说的,端云协同。
云上的模型一般都是比较大的模型,也有可能是多模态的。当具身智能机器人要和这个物理世界发生连接,也要有一个思考的过程。你让它递一个杯子,对它来讲是要输入一系列多模态信息、完成一个动作,那它就需要用云上的模型,如果都放在端上,其实算力是不够的。
那么它需要知道,如何用云上的模型分解这个任务(具体干哪几件事情),通过云上的强大算力可以帮你做好规划、决策、周边环境的感知,之后要协同端上的模型——去控制它的一些动作,比如保持它的平衡,或者走路,或者调整某一个关节的力道,这些都需要相关的小模型协调。所以未来,整个具身智能行业和 AI 结合,应该是端和云侧的智能,怎样能够更好的协同和连接。
做个比喻,大家学自行车的时候,知道往左倒就往左打转向,这个就相当于是端云在协同,有个大脑在指挥你的身体,当你的整个身体或者端侧的模型足够好的时候,你是不需要去思考这个事的。这就是一个标准的端云协同进化的逻辑在现实中的类比。
卫诗婕:你的肌肉记忆已经进化到成为一种本能,计算速度非常之短。
张献涛:因为云上模型的特点是延迟稍微高一些,但是智能化程度更高一些。端上的模型可能就像你讲的像肌肉记忆一样,通过过往相关的经验的积累,可以很实时地把这件事情给完成。
从技术上说一个是端侧模型,去蒸馏云端模型——把一部分能力变成自己的,接着在云端更大的模型下做监督学习,通过云端的反馈再去训练模型,让它在专用的事情上做的更好。这两条链路其实现在都是在技术里面比较主流的做法。
卫诗婕: agent 的出现理论上是会加速机器人的自进化,是这样吗?
秦玉森:我自己的判断是的,因为这里面的 agent 分成两部分,一部分端上本身的那个智能,它就是个 agent ,是大模型在具身身体里的那个载体。第二 ,我们在谈 agent 的时候,更多指的是多 agent 协作,因为所有的东西都有它各自的缺点,但是当机器人一旦到了具体的环境,做具体的任务的时候,所有东西就不是为面向通用做事变成专用做事。这个时候多个 agent 就可以把专用的能力变成一个最小集,才能让端侧上的智能发挥出来。端侧有它的算力天花板,但是怎么把它从基本线拉到天花板,就是这个多元式协作框架的意义。
卫诗婕:怎么构建一个让机器人能够像生物一样,高速进化的土壤?
张献涛:其实最近我们可以看到各个所谓开源的比较优秀的 agent 架构都提出了自进化,只要装上了这样的一个 skill 之后,龙虾越养越聪明,它会不断的去提升自己,或者说它会对过往你给它的交互内容不断的进行学习,也会每天去学习更多新的能力,能够去补充自己。这个自进化不仅仅是具身智能行业,更多的是 agent 行业本身就想需要具备的能力。现在自进化已经成为 agent 的标配了。
秦玉森:今天整个大环境是从云原生向 AI 原生的一个过渡阶段,其实 B 端的企业以前为了云原生做的数据库,数据治理管线、 ETL 数据清洗都是原来那套逻辑,那些东西是为了服务于人、服务于云相关的数据库。
但 AI 不是人,也不是数据库,怎么去做好 AI ready ?多个 agent 需要读一些书,需要强化。这块就涉及到基模的强化学习 RAG 的注入,让它忘掉那些不该记着的能力。因为当人是通才的时候,它是发散的;当它是专才的时候,它是聚焦的,是可闭环的,让每个人各司其职。不同开发者可能会用到的东西需要变成专业化的 AI ready 。把这个 agent 交给客户,让客户提出意见,有人在环再去促进 agent 的专业度的提升,这是我们现在干的事。
卫诗婕:如果试图用一到两句话来总结 agent 时代需要什么样的基建,你们会怎么回答?
秦玉森:基建的用户是大模型,而不再是人。
张献涛:怎样能够更好的把 agent 给造出来?怎样能够把 AI Infra 变得更加高效?怎样能够把模型训练得更加智能?另外一点,怎样让这个数字世界或者物理世界对 agent 友好?比如把数字世界里的能力,无论是软件还是数据,通过 MCP、 CLI 的方式可以让 agent 去使用,那么 agent 就可以利用这些能力做一些自进化。
卫诗婕:怎么样的生态能够被称为好生态?
秦玉森:利他。
卫诗婕:机器人行业现在有这样的好生态吗?
张献涛:我觉得整个产业链还蛮长的。今天来看,虽然终端做汽车的公司非常多,但是其实大家还是有行业分工的,真正把自己所擅长的那部分做好,就有利于行业的发展。对具身智能或者 agent 这个领域来讲,其实也是一样的。
每一家公司都有自己擅长的地方,比如阿里云,我们更擅长的是 AI 基础设施,加模型,加 TOKEN 的对外输出,那我们就会把这方面的能力给做的越来越强,让更多的开发者、终端用户、服务的企业更好的使用这些算力。
卫诗婕:通往机器人时代的那条基建,现在的进度有百分之多少?
秦玉森:我觉得每天都是从 59% 攀向 61% ,因为基建的速度远跑的比业务要慢。而且今天大家都在探索无限可能,基建的点是当探索完无限可能之后,我们去归拢求解出一个最大的公约数,让大家不再重复磨刀。但今天大家都是拿着已有的轮子往前跑。有点像西西弗斯。
卫诗婕:预测一下,未来 1 到 3 年,你们最期待行业发生哪些变化?
秦玉森:机器人真的能自进化,做个梦就会变得更好。从技术上来说,机器人真的存在在线强化学习,当天看过的东西,在自己的设备里面快速学习,做了第一次之后,第二次就可以做得更好。这样的场景出现之后,整个机器人在场景中的适配的能力和进化能力就进入了快车道,就会出现「只要本体能力够,场景和对应的功能会快速地被满足」。剩下发掘它的商业价值和物理价值之间的桥梁,这个事情就交给整个商业社会和真正有效的市场经济来运作。
张献涛:我作为一个外行看到的是,具身现在可能很多还在炫技阶段。三年之后,我觉得在某些行业,比如在工业或者商用场景里边,一定会大规模的应用起来,可能家用是三年以后的事情。
另外一点因为我是做 AI 方向的,觉得现在的智能化程度可能还不太够。今天结合 agent 、 AI 技术的发展,它们之间的融合速度应该会更快一些,我觉得在未来 1 到 2 年就会爆发。
第三,成本应该会有大幅度的下降。这和其他的行业是一样的,一旦被广泛应用,尤其是中国的制造业能力又这么强,里边的零部件或者是芯片成本都会有大幅度的下降。我预计 3 年之后造一个本体的成本应该比现在便宜至少 50% 以上。应用的领域可能也会有所拓展。
卫诗婕:您现在负责的智能计算终端事业部,它的业务里面比重百分之多少是具身或者机器人?
张献涛:最多的两个行业其实就是汽车和具身智能。当然面向未来,我们希望通过终端上的创新,让更多的行业享受到技术发展的红利。
卫诗婕:还挺令人期待的,往前倒 10 年,大家想象的机器人无非就是割草机、吸尘器。但是今天我们已经看到非常多不同的场景被定义,大家还很期待机器人保姆、机器人老师,今天你们在做的事仍然是在布局未来。
秦玉森:确实,而且我是个工程师,懂一点产品。我的观感是机器人的弱智能化,很值得期待。家里面搭把手的劳务机器人的需求其实很朴素——在家里,我们希望机器人它恰好能搭把手,节约时间,让我们的生活更舒服。只要它的成本降下来,弱智能也有发挥的空间,而强智能化更是发挥的空间无限。
--End--
同期播客已经上线,欢迎前往小宇宙等平台收听
热门跟贴