上一章我们把机器人拆成了四块:大脑、小脑、身体、感官。这一章,我们先钻进最神秘的那块——大脑。
你可能会问:机器人不就是一堆铁和电线吗,它真的有“大脑”?它到底是怎么“思考”的?
别急。我们从头讲起。
一、上古时代:机器人只会“背剧本”
时间倒回几年前。那时候的机器人,走的是一条“一步一个脚印”的笨办法:工程师给它写一份详细的“剧本”——“走到点A→弯腰→抓东西→起身→走到点B”。每一步都写得清清楚楚,机器人照着执行,就像一个不会临场发挥的演员。
这招在工厂里挺好使——因为工厂环境是固定的,零件永远放在同一个位置,灯光永远不变。但一旦出了工厂,机器人就傻了:如果地上有根充电线挡路,它不知道绕过去;如果工件被挪了位置,它伸手抓个空;如果灯光暗了一点,它可能直接“瞎”了。
简单说:活儿能干,换个场景立马变残废。 这种靠“剧本”活着的机器人,学名叫“基于规则的系统”。它的上限很低,因为人类不可能把全世界所有可能发生的情况都写进代码里[1]。
二、ChatGPT带来的“大脑移植手术”
2022年底ChatGPT横空出世,全世界第一次看到AI能像人一样聊天、写诗、编代码。但ChatGPT再厉害,它也活在屏幕里——它没有眼睛,没有手,不会帮你倒水。
研究者灵机一动:如果把ChatGPT这类大语言模型的“推理内核”移植到机器人身体里,会怎样?
效果立竿见影——机器人开始听懂人话、看懂环境,甚至零样本干活了。所谓“零样本”,就是没见过也能大概学个八九不离十。研究显示,基于大模型的VIOLA系统,在真实场景的零样本任务中,拿取成功率最高能到93.8%[2]。不是说机器人已经不怕任何场景了,但它确实不再被“死代码”锁死了。
这个“大模型+机器人身体”的组合,学术上叫具身智能(Embodied AI)。大白话就是:AI终于有了身体,不再只会动嘴皮子,还能动手动脚。
你可能听过“具身智能”这个词觉得很玄,其实它的核心就是三件事:你说人话,机器人听得懂;给它看画面,机器人看得懂;最终把听到看到的整理成行动方案,一键执行。
举个例子:你对机器人说“我渴了”,它不会理解成“我热了”或者“我想吃冰淇淋”,而是会推理出“渴了需要喝水”,然后找到水杯、拿起来、递给你。这种跨场景的常识推理,在以前靠写规则根本写不完,但现在大模型让它变成了现实[3]。
三、从“模块化”到“端到端”:大脑的进化之路
早期的具身智能系统,还是把“听懂”“看懂”“规划”分成三个独立模块,各自为政。这有点像三个部门一起做项目,但互相不沟通——效率低,还容易扯皮。
2024年以后,行业开始转向端到端(End-to-End)的路线。什么叫端到端?就是“输入到输出”一条龙:你把“我渴了”这句话和当前的视觉画面一起扔进模型,模型直接输出“走去桌子拿水杯”的动作指令,中间不跟你讨论解题步骤[4]。
特斯拉的自动驾驶和机器人就爱玩这套。Optimus Gen3的小脑算法深度复用FSD自动驾驶技术,基于端到端神经网络实现运动控制。在工厂测试中,一台Optimus可以24小时不间断工作,操作精度达99.7%,一台机器人等效于4名人类工人[5]。
端到端的最大好处是:减少了模块之间的信息损耗,让机器人反应更快、动作更自然。 缺点是:你得喂给它海量的“看到什么→应该做什么”的配对数据。这就是我们第3节要讲的数据问题。
四、现在的大模型,已经“进化”到什么程度了?
你可能在新闻里看到过这些数字:2017年至2023年,大模型在7项关键任务上的平均性能从50.5%提升到84.1%,相当于整个学科往前推了好几步[6]。这意味着,大模型不仅能聊天,还能做逻辑推理、数学计算、甚至写代码——而这些能力,恰恰是机器人理解复杂指令所必需的。
2026年春天,你可以看到中国机器人“大脑”的军备竞赛:
l 宇树科技向科创板提交IPO申请,计划募资42.02亿元,其中约20亿砸向智能机器人大模型研发项目[7]。
l 优必选自研大模型Thinker已进化出Thinker-VLA和Thinker-WM双版本,主攻场景泛化[8]。
l 智元机器人在2026年4月一口气发布了GO-2模型、GE-2动作世界模型和GO-3新一代基座模型,产能也拉到月产数千台的量级[9]。
l 自变量机器人在京发布WALL-B——全球首个“世界统一模型”架构下的具身智能基础模型,创始人宣布“35天后搭载WALL-B的机器人将首批入驻真实家庭”[10]。这话多少有点激进,但也传递出一个信号:大模型正把机器人从工厂拽进你家客厅。
【好了,小结一下】
这一节我们搞清楚了机器人“大脑”是怎么从“死记硬背”进化到“活学活用”的:
l 上古时代:机器人靠“剧本”活着,换场景就抓瞎。
l ChatGPT之后:大模型给了机器人常识推理能力,具身智能诞生。
l 端到端路线:不再分模块,输入直接到输出,反应更快。
l 当前战场:宇树、优必选、智元、自变量都在砸钱搞“大脑”,目标是让机器人先学会“理解世界”,再学会“干活”。
下一节,我们会钻进更具体的概念:VLA模型、世界模型、端到端——这些词到底啥意思?放心,我保证用你能听懂的方式讲清楚,不上数学课。
【给你划重点】
l 具身智能 = 大模型 + 机器人的身体。核心是“你说人话,机器人干人事”。
l 从“规则驱动”到“数据驱动”:以前靠人写代码,现在靠AI看视频自学。
l 端到端:输入(语言+视觉)→输出(动作指令),一条龙搞定,不拆模块。
l 当前行业共识:谁能先让机器人在真实场景里“学得快、干活稳”,谁就能赢。
【思考题】
你有没有遇到过那种“换个地方就不会做事”的尴尬?比如在自家厨房做饭行云流水,去朋友家就手忙脚乱。你觉得这种“场景泛化”能力对机器人来说,难点到底在哪里?
对具身智能感兴趣的同学,查阅陈甸甸主页,系统讲清机器人行业现状、产业链和未来趋势,《具身中国》连载中
数据来源:
[1] 基于规则的机器人局限性:Siciliano & Khatib, Springer Handbook of Robotics, 2016.
[2] VIOLA零样本表现:Goyal et al., “VIOLA: Object-Centric Imitation Learning”, CoRL 2023.
[3] 大模型常识推理能力:Wei et al., “Emergent Abilities of Large Language Models”, arXiv 2022.
[4] 端到端机器人控制:Levine et al., “End-to-End Training of Deep Visuomotor Policies”, JMLR 2016.
[5] Optimus工厂测试数据:Tesla 2026年第一季度更新信。
[6] 大模型性能跃升:Bubeck et al., “Sparks of Artificial General Intelligence”, arXiv 2023.
[7] 宇树科技IPO募资规划:宇树科技科创板招股书(2026年3月受理)。
[8] 优必选Thinker双版本:华源证券《人形机器人产业周报》,2026年4月。
[9] 智元AI矩阵及产能:智元机器人2026年4月合作伙伴大会。
[10] WALL-B及35天入驻家庭:自变量机器人在京发布会,2026年4月。
热门跟贴