自动驾驶和人形机器人,到底是什么关系?在主流的舆论场里,这似乎是两条完全平行的科技赛道。但在砸下重金实干的企业家眼中,二者不仅同源,更是同一场残酷淘汰赛的上下半场。
在罗永浩的播客对话中,理想汽车创始人李想抛出了一个极其冷酷的行业研判。那些还在纯粹炒作人形机器人噱头的初创公司,可能连真实商业化的门槛都摸不到。而真正决定下一代产业胜负的,是隐藏在铁皮之下的底层算力架构与物理世界预训练模型。
大众对机器人的理解,往往停留在“双足行走的人形铁疙瘩”。但李想用《变形金刚》做了一个异常精准的类比:哪怕是汽车的形态,只要赋予了感知模型和计算芯片,它就是不折不扣的机器人。
汽车之所以没有长成人的样子,是因为在公路运输这个特定场景下,四个轮子的效率远远高于双足行走。
回到制造业的真实场景,目前资本热捧的“人形机器人做咖啡”、“人形机器人拧螺丝”,在真正的制造业管理者看来,完全偏离了痛点。现代化的工厂早就实现了高精度的自动化生产,根本不需要复杂的软臂机器人去干这种微米级精度的活。
真实的需求缺口在哪里?在于极其枯燥的“上下料”与“搬运”。
以一座万人规模的汽车工厂为例,流水线上真正执行生产的是精密机器,但却需要足足三千多名工人,专门负责把零配件搬运并放到AGV小车上。即便是在高端商业写字楼里的几百台全自动咖啡机,日常维护依然需要专人一包一包地去补充咖啡豆和牛奶。
这才是机器人商业化落地的第一站。那些装配着机械臂的轮式底盘机器人,只要能解决物流搬运的泛化能力,其市场需求量每年都是数以万计的,这也将是机器人赛道最先跑通商业闭环的领域。
如果说工厂里的搬运机器人只是前菜,那么汽车行业的自动驾驶,才是具身智能最核心的上半场。李想将这场技术演进划分为了三个壁垒森严的阶段。
第一阶段,是2017年到2022年左右的辅助驾驶。这一时期的技术底层基于CNN二维视觉和规则算法,配合几十TOPS的算力来执行控制。如今,这已经成为中国一个几千亿规模的基础产业,不具备该功能的车型基本已被市场边缘化。
第二阶段,是从2023年开启,并在接下来的五年内走向L3级自动驾驶。技术栈在这一刻发生了质变。车辆的感知系统从传统的二维视觉升级为基于Transformer架构的二维视觉大模型(2DViT)。控制系统也从原本的规则代码,转向了视觉到轨迹的端到端直接控制。只要芯片算力达到2000TOPS左右,模型参数量来到4B到7B的规模,就能实现稳定的L3级自动驾驶。
真正决定生死的,是预计在2028年到2029年到来的第三阶段——L4级完全无人驾驶。在这个阶段,汽车彻底剥离了人类驾驶员,变成了纯粹的自动化机器人。
L4级对底层技术提出了极其苛刻的要求。
感知层面,必须跨越到三维视觉(3DViT),像人类一样理解立体的物理世界。决策层面,简单的“模仿学习”将彻底失效,取而代之的是真正具备逻辑理解能力的“物理世界预训练模型”。而在执行层面,机器的反应速度必须绝对碾压人类。
普通人从看到障碍物到踩下刹车,反应时间通常在350到400毫秒之间。而通过全线控底盘和电子制动,机器能够将这一响应时间压缩到惊人的200多毫秒甚至更低。其中电子制动更是将原本机械制动的六七十毫秒大幅缩短至13毫秒。在线控制动技术的加持下,即便是在一侧冰面一侧柏油的极端路况下,系统也能通过四个轮子的独立制动保持车身绝对平稳。
为了支撑这种毫秒级的物理响应和庞大的三维数据处理,L4级无人驾驶的单车算力需求将暴涨至接近10000TOPS。这绝不是简单地往主板上堆叠芯片就能解决的,过度堆叠带来的数据传输带宽受限,将成为致命的硬件瓶颈。
面对未来万级TOPS的算力黑洞,传统的计算架构已经触碰到了效率天花板。
这也正是头部智能车企不惜重金下场自研芯片的根本原因。理想在旗舰SUVL9Levis上,搭载了自研的马赫M100芯片。这并非是对传统GPU架构的平庸模仿,而是采用了全球首个动态数据流架构。
在极其吃算力的AI推理中,最耗费资源的过程并非计算本身,而是庞大数据在内存和处理器之间的反复搬运。动态数据流架构在端侧推理时,其数据流转效率远超传统GPU。两颗马赫M100芯片叠加,为单车提供了高达2560TOPS的实际算力,不仅支撑了现有的智能驾驶和拥有1600公里续航能力的5C增程系统优化,更为后续向完全无人驾驶演进留出了战略级的算力冗余。
在车内座舱,过去的智能交互仅仅是简单接入大语言模型,常常因为执行缓慢而导致极差的体验。真正的AI重构,需要将用户的需求进行极其精确的物理拆解。
当自动驾驶在2028年左右决出胜负,具身智能的下半场——通用人形机器人,才会真正起步。
业内研判,2030年的人形机器人产业成熟度,大概只相当于2015年的智能电动车,仅仅完成了从0到1的技术验证期。其演进路线将严格遵循人类的心智发育:首先具备相当于6岁孩童的基础物理泛化能力,随后进阶至12岁水平,最终在未来15到20年间达到无限逼近于通用人工智能(AGI)的18岁成人状态。
耗费数百亿资金,在极其难啃的硬科技泥潭里鏖战,资本与实业家的最终诉求极其清晰。
在过去的社会结构中,只有处于财富金字塔尖的顶层阶级,才能长期雇佣专职司机接送,并供养家政团队料理起居。而具身智能技术演进的终局,就是将这种极其昂贵、垄断性的阶层服务进行物理降维。
让庞大基数的普通人,只需支付几万元或几十万元的硬件成本,就能终身拥有一套不知疲倦的机器司机与家庭助理。让先进的算力代替血肉之躯去承受劳役,这才是科技狂奔的终极坐标。
热门跟贴