打开网易新闻 查看精彩图片

一份拓展中的 AI 地图。

文丨程曼祺

3. 巨头的 AI 之战:字节、阿里、腾讯

关键词:人才和组织之战、To C 应用大战、即将到来的春节之战

从本轮 AI 热潮起点开始,《晚点》持续跟踪报道互联网大公司,尤其是中国大公司的 AI 动向,其中最有实力的是三家:字节、阿里、腾讯。

25 年,我们对这三家公司的 AI 动作有两轮集中报道:春节后陆续发布的四篇报道:《腾讯在 AI 拐点到来前的 700 天》(高洪浩)、《字节 AI 再创业:独立组织、全链条的饱和出击》(王与桐)、《重新认识阿里:大踏步迈向 AI》(管艺雯)、《字节、阿里、腾讯的 AI 人才竞赛:2330 个研究者背后的共识与分歧》(贺乾明、黄帧昕),以及前不久发布的《字节、阿里、腾讯 AI 大战全记录:一场影响命运的战争》(高洪浩)。这些报道涵盖我们观察科技巨头做 AI 的几个关键视角。

人才和组织之战

字节:创业方式做 AI,吸纳 AI 原生人才

首先是人才和组织,这直接关系各公司最底层的模型实力。

字节的 AI 部门相对独立,它试图通过营造一个小环境,以创业公司的方式运行,从而摆脱十几万人庞大组织的重力。

25 年之前,字节成立了三个相对独立的部门:负责产品的 Flow(豆包产品团队隶属于此)、负责模型研发的 Seed,以及提供后端研发支持的 Stone。这三块业务最初的负责人均为字节老将:Musical.ly 创始人朱骏负责 Flow;2015 年从百度加入的朱文佳负责 Seed;同样来自百度,2014 年入职的洪定坤负责 Stone。

今年,字节 Seed 迎来了新的研发一号位——Google DeepMind 前研究副总裁吴永辉。业内人士评价吴永辉是 “大佬级别的技术管理者”,能真正 “镇得住场子”。

“镇场” 能力之所以重要,与字节补充人才的顺序有关。在吴永辉于 25 年 2 月入职前,字节在整个 24 年都在疯狂吸纳年轻技术骨干。这件事的起点可追溯至 23 年夏天,当时字节本打算投资 MiniMax 和阶跃星辰,但在一次高层会议后,张一鸣明确表态:字节应该、也能做好自己的大模型,无需对外投资。

紧接着,字节高层及张一鸣本人从 23 年底开始密集招人。我们在《字节 VS 六小龙》那期节目里提到,24 年有投资人去拜访顶尖论文的作者时,发现不少人都刚和张一鸣聊过。最终,字节招募了来自 Google 的蒋路、来自面壁的秦禹佳、来自零一万物的黄文灏、智谱 AI 的丁铭,以及备受关注的阿里通义千问模型的前负责人 周畅。

当这些在业界有影响力、处于事业上升期的 Leader 汇聚一堂,吴永辉这样一位有多年 管理经验的资深人士就成了符合画像的领导者。这也让 Seed 团队中来自传统搜推广部门的人员比例降低,而像吴永辉、周畅这样的 AI-Native 人才比例显著上升。

不过,精兵强将也带来了激烈的内部竞争。以视频生成为例,内部有多个团队在同步推进,部分人才(如蒋路)的流失。

一位技术 Leader 对赛马机制做了有趣的总结:健康的赛马是多路探索,跑完这轮还有下轮,团队有翻盘机会;但如果演变成 “拳击”,败者就只能退场。

阿里:人员相对稳定、部分老人离场

自周畅离职加入字节后,阿里的 AI 团队进入了一个相对稳定的阶段。

阿里的 AI 一号位始终是已入职十年的周靖人。他是阿里云 CTO 兼通义实验室总负责人,也是阿里大模型开源的提议者和主导者。周靖人今年晋升为阿里合伙人,关键原因之一便是他带领通义实验室保证了 Qwen 系列模型的领先地位。

周靖人之下,通义实验室有三个核心团队:

- 负责主力模型 Qwen 研发的 “千问” 团队,由 90 后林俊旸负责。林俊旸是阿里内部培养的人才,2019 年从北大硕士毕业后即加入达摩院;

- 二是负责图像、视频生成的 “通义万相” 团队;

- 三是 25 年 2 月新加入的许主洪团队,负责多模态交互模型。

与 Seed 不同,通义实验室在此轮 AI 热潮前已经存在,由原达摩院多个实验室合并而成。这导致其最初在薪酬激励上没那么独立,但在 24 年底,通义对模型团队普遍调升了薪资和职级,可以理解为对一种对市场行情的回应。

这种并非 “高举高打” 的起步,也带来了意外之喜:研发 Qwen 的团队是从内部相对边缘的角落里自下而上生长的,规模精简,却通过开源大模型形成了极强的社区影响力,成为了一个自驱且强势的团队。目前,千问团队也在探索具身智能 VLA、多模态等前沿领域,并上线了面向普通用户的 Web 端产品 Qwen Chat(chat.qwen.ai)。

腾讯:总裁办来了年轻人

25 年秋天,前 OpenAI 研究员、ReAct 作者姚顺雨加入腾讯。12 月,腾讯官宣姚顺雨出任总裁办首席 AI 科学家,直接向总裁刘炽平汇报,并兼任 AI Infra 部和大语言模型部负责人。

1998 年出生的姚顺雨是典型的年轻 AI 原生人才,24 年博士毕业后即加入 OpenAI。

他的加入已带来了三个明显变化:

- 以极高的频率招揽新人(如从 DeepSeek 招募王炳宣);

- 重塑目标,指出此前混元模型太盯着 Benchmark 刷榜而忽视了实际体验;

- 组织调整,将 Infra 部门划归统一管理,强调协同设计。

相比字节先收骨干再引统帅,腾讯在招募姚顺雨之前并无太多 AI 明星,而姚顺雨本人也非常年轻,没有太多管理经验。对稳健的腾讯来说,这是一次激进的组织选择,姚顺雨更像是一条被引入的 “鲶鱼”。这或许受到了 DeepSeek 的启发:DeepSeek 证明了一群 95 后研究员同样能做出惊艳世界的模型。腾讯这一轮调整的效果,将在 26 年得到验证。

最后,一个中美差异是:在美国,OpenAI 等初创公司对人才的吸引力最大;而在中国,巨头依然是顶尖人才的首选。正如 MiniMax 创始人闫俊杰所言:“客观来说,字节的 AI 人才密度是最高的。”

To C 应用大战

对巨头之战的第二个观察视角是各公司的应用布局。

模型与产品团队间的协作:字节更紧密,腾讯、阿里分属两个事业群

在 Sora App 发布后不久,Sand.ai 创始人曹越有一个对组织的观察:Sora App 之所以能如此巧妙地利用模型特性开发新功能与交互,是因为 OpenAI 实现了从产业到模型的深度垂直整合,这是一种 “端到端” 的组织,产品需求可以高效地梯度回传给模型。

如果以这个视角看,中国三家大公司中,字节跳动的模型与产品协作最为紧密。

这一年,我们通过与多位 Seed 研发人员和 Flow 产品团队成员交流,综合感受是两个团队协作频次极高。Flow 的一些中层认为,Seed 的模型支持给力,有共同为产品服务的意识。

字节在 25 年初定下三个 AI 大目标:探索智能上限、探索新 UI 交互形式、加强规模效应。

其中 “加强规模效应” 值得细品。传统软件通过 “一次构建,多次售卖” 来实现规模效应,但大模型产品每次调用都消耗算力,更像是有 BOM 成本的制造业。字节的逻辑在于 25 年 1 月豆包 1.5 Pro 官博中提到的 “数据飞轮”:依托字节在推荐、搜索和广告领域的 AB Test 经验,构建了基于大规模用户反馈的闭环优化系统。

这里飞轮的两端是「大规模用户反馈」和 「模型实际使用体验」,而不是模型性能本身。因为现阶段,大量普通用户的反馈不能直接提升模型能力,要让模型变强,还是得靠研发人员的努力。

字节对规模效应的表述,可能反映了,他们在努力发挥过去积累的移动互联网经验和基础设施,而且从豆包的增长看,确实取得了效果。

腾讯与阿里在 25 年都经历了产品团队的重组。

腾讯方面,原本混元大模型与元宝 App 均隶属于 TEG(技术工程事业群)。25 年初,腾讯总办会决定整合分散的 AI 应用,最终由汤道生负责的 CSIG(云与智慧产业事业群) 接手。元宝与原本在 PCG 的 QQ 浏览器、搜狗输入法、ima 等应用汇聚到了 CSIG,而混元研发团队仍留在 TEG。这种模型与产品分属不同事业群的架构,考验着跨部门的协作效率。

同时,腾讯最大的底气——微信,始终是独立的事业群。就在上周三,微信封掉了元宝 App 为春节大战准备的 10 亿元红包分享链接,理由是 “整治过度营销”。这个小插曲引发了一个疑问:面对 10 亿级用户,微信能在多大程度上深度参与腾讯的 AI 布局?

阿里的路径更复杂。 23 年 10 月上线时,通义千问 App 与通义实验室均在阿里云旗下。到了 24 年底,通义 To C 产品团队被剥离,划归至吴嘉管理的智能信息事业群。这意味着产品与模型团队从 “同屋” 变成了 “邻居”。

字节是豆包、腾讯是元宝,阿里经历通义千问和夸克的双线轮换

这种调整也伴随着应用布局的变动。相比字节豆包与腾讯元宝的品牌稳定性,阿里经历了频繁的 “轮换”:

同时起步:

“通义千问”App 24 年 10 月上线;同期,早在 2016 年就上线的夸克浏览器加入 AI 搜索等新功能。

夸克替代通义,成为阿里主力 AI 产品:

24 年 5 月,通义千问 App 改名为 “通义”;25 年 3 月,阿里将夸克定为 AI 旗舰应用,提出 “AI 超级框” 概念。吴嘉曾说,希望夸克成为中国第一个日活过亿的 AI 产品,但这一目标最终被豆包率先实现。

通义改名千问,“熹妃回宫”:

到 25 年底,原先被冷落的通义 App 再次更名为 “千问 App” 卷土重来,接通了阿里生态里的外卖、购物等生活服务。

阿里的这番调整,有些 “头痛医头、脚痛医脚”。

最初的通义千问 App 功能堆砌严重,展示层级缺乏重点,在整个 24 年,相比豆包、Kimi 等更具辨识度的 Chatbot 产品,表现始终不温不火。

当时,管理该产品的阿里云,战略重心在拓展 AI 云业务、大模型研发以及构建模型生态。这或许解释了阿里为何随后将 To C 产品团队悉数划归至吴嘉管理的智能信息事业群。阿里当时的逻辑是:Chatbot 会最先颠覆搜索,而从夸克这款浏览器入手改造搜索体验,是通往 AI 产品最顺理成章的路径。

然而,当夸克在 25 年正式接棒后,表现却差强人意。它确实吸引了大量尝鲜者,但夸克庞大的老用户群依然习惯于网盘、搜题等传统功能。毕竟夸克已上线十年,承载了太多大模型时代之前的用户习惯,难以在短时间基因突变。

近期通义 App 再次更名为 “千问 App” 卷土重来后,深度接通了阿里生态内的生活服务,试图成为一个能点外卖、能购物的全能 AI 助手。与此同时,阿里一改往日在投放上的克制,千问 App 的单日投放峰值达 1500 万元。但一些阿里人士,对目前的打法持悲观态度。他们认为,刚改头换面的千问 App 尚不成熟,在产品力未打磨好的情况下大规模的投放,难以产生实质留存,尤其是面对强劲的对手豆包。

字节跳动目前的布局则是 “一超多强”。 豆包作为中国首个日活过亿的 AI 产品,不仅稳居第一,还推出了海外版 Dola(日活破千万)。在豆包之外,字节进行了饱和式攻击:AI Coding 工具 Trae、智能体平台 Coze、教育应用 豆包爱学 等。

豆包已发展出独特的 “人设”。它不像 ChatGPT 那样是 “办公室精英”,而是更亲切、生活化、好玩。在抖音上,“和豆包互怼”、“让豆包教穿搭” 的内容已形成广泛传播。目前豆包已开始尝试商业化,如 25 年 11 月上线 “商品卡” 功能。26 年,豆包如何平衡免费增长与变现将是核心看点。

腾讯的元宝则在 25 年春节迎来意外惊喜。 由于之前自研模型相对落后,腾讯成了大厂中接入 DeepSeek 最果断的公司。元宝日活因此在 2 月底快速增长了 10 倍。元宝最新的尝试是 “元宝派”,试图通过分享链接将微信、QQ 的社交关系引入 AI 社交群。

总结三巨头的 AI 策略:

- 腾讯:更重视应用落地,策略是 “后发制人”,等待模型能力成熟的拐点。

- 阿里:强调从算力、云到模型的全栈整合,在开发者生态上积淀深厚。

- 字节跳动:建立了一个相对独立的 “国中之国”,以创业公司的方式驱动模型与应用齐头并进。

春节之战展望

今年春节的竞争态势异常激烈:豆包已正式拿下春晚合作伙伴席位;元宝紧随其后推出 10 亿元红包;而千问则宣布发放 30 亿元红包。

与此同时,悬在所有人头上的最大变数是:DeepSeek-V4 究竟何时发布?效果又将如何?(补充:2 月 11 日,DeepSeek 网页端已更新了底层的新模型,应该就是 V4 的某一个版本。)

如果 DeepSeek-V4 选择在节前发布,对腾讯的春节攻势是个利好。虽然在现阶段,第一梯队模型之间的差异,大部分普通用户可能已难以直观感知,但 DeepSeek 有强大的品牌效应,而元宝又是大厂产品中与 DeepSeek 绑定最紧的一个。

这个春节,各大公司的 AI 从业者们大概率又无法享受一个完整、惬意的假期了。

4. AI 创业公司们

关键词:大模型第一股、5000 万美元年收、全球化与中美之间

关于 AI 应用的具体趋势,前文已有讨论。这一章会重点剖析 AI 创业的商业化进展,以及中国创业公司面临的一个特殊议题:全球化。

大模型第一股:IPO 不是奖赏,而是续命的安全网

25 年至今,中国 AI 创业市场迎来一个节点事件:26 年 1 月,智谱 AI 与 MiniMax 前后脚登陆二级市场。

两家公司上市,向公众揭开了大模型创业公司的财务底牌,也能看到资本市场的短期定价。此前业内的一种流行观点是:中国头部的模型能力并未被美国拉开代差,但估值却差了两个数量级——中国最贵的大模型公司估值在 30-40 亿美元,而 OpenAI 与 Anthropic 的估值已分别飙升至超 7000 亿和 3500 亿美元。

然而,从财务情况也可以有另一种解读,上周(2 月 9 日)收盘时,智谱市值约 114 亿美元,MiniMax 约 185 亿美元,与美方的差距缩小到了一个数量级。但看收入:智谱 25 年上半年收入约 2700 万美元,MiniMax 前三季度约 5300 万美元;对比之下,OpenAI 25 年营收远超 130 亿美元(Sam Altman 自称),Anthropic 则达到 45 亿美元(the Information 报道)。

当然,无论中美,基础模型公司都在巨额亏损。一方面,技术竞赛要求持续的研发投入;另一方面,大模型产品具有制造业式的 “BOM 成本”,每次调用都消耗算力。据伯恩斯坦分析师估算,OpenAI 仅在 25 年第三季度的亏损就可能高达 120 亿美元。

最新市场消息是,OpenAI 和 Anthropic 计划最早于 26 年底 IPO。中国 “大模型第一股” 的竞争比美国早了整整一年。原因很现实:中国一级市场的后续资金不及美国充沛,上市成了拓展定增、大规模融资的必要手段。所以在 MiniMax 上市当天的融资故事报道中,我们写道:“大模型领域的 IPO 并不发生在大战告一段落之后,它不是对胜者的奖赏,而是下一轮竞赛的鼓点。” 更直接地说,IPO 是一张续命安全网。

好消息是,目前,仍坚持基础模型研发且未上市的中国头部公司已寥寥无几,DeepSeek 依靠幻方的自有资金支持,而 Kimi(月之暗面)与阶跃星辰则在近期分别完成了大额融资。

相比之下,欧美市场仍在涌现新成立的 Neo Lab,如 Ilya 24 年创立的 SSI、Mira 25 年创立的 Thinking Machines 等。而在国内,由于资金门槛和巨头竞争,23 年下半年起就很难再有新的基础模型公司获得初始融资。

这些创业者正在打一场 “极难模式” 的游戏。不同于移动互联网时代有 iPhone 带来的硬件红利和自然增长,大模型目前仍运行在存量硬件上。现存巨头不仅掌握着流量入口,且均已亲自下场自研模型,缺乏收购意愿。对于基础模型创业者而言,仅仅维持生存是不够的,不达到足够体量的成功,也可以算是一种失败。

5000 万美元 ARR 的 AI 应用公司有多少家?

据不完全统计,全球 ARR(年度经常性收入,以一段时间的订阅收入折算到一年的收入;当公司快速增长时,ARR 往往大于实际收入)超过或等于 5,000 万美元的 AI 原生企业约有 40-70 家,主要集中在 AI Coding、内容创作 Agent、法律及教育等场景。代表公司包括 Perplexity、Cursor、Runway、HeyGen、Harvey 等。

在中国背景或华人创立的公司中,达到或接近这一量级的公司有:

- Manus(蝴蝶效应):作为通用 Agent 的代表,于 25 年底以超过 20 亿美元的价格被 Meta 收购。这对坚持创业十年的团队来说是一个 “童话故事”。

- Genspark:由前小度 CEO 景鲲创立,25 年 9 月宣布 ARR 达到 5000 万美元。

- OpenArt:由 Coco Mao 创立,20 人的精干团队实现了 7000 万美元的 ARR。

- PixVerse 与 Lovart:PixVerse 25 年总收入应已超过 4,000 万美元;Lovart 在 10 月时宣布,ARR 已突破 3,000 万美元。

视频与语音生成公司(如 ElevenLabs)之所以能杀出重围,是因为多模态技术与大语言模型的主轴并不完全重叠,这为创业公司留下了独特的空间。

这里推荐一个由一位创业者 Henry Shi 维护的 “Top Lean AI” 榜单。他相信 AI 会催生 “人数极少、收入极大” 的公司。榜单中收录了许多人均创收超 100 万美元的团队,最新名单是 44 家,其中 14 家总 ARR 超过 5000 万美元。

相比基础大模型公司 “Go Big or Go Home” 的残酷,AI 应用团队的活法更多样:可以追求小而美的极致效率,可以寻求被巨头收购,也可以在巨头无暇顾及的缝隙里先立足。当然,再谋求纵深发展,比如 Cursor、Perplexity 都已在训练自己的模型。

全球化与中美之间

想分享三个 AI 创业团队的对比,它们恰好折射了开发者们在不同时间点做出的不同选择。

HeyGen

前面提到过,这是一家年营收已突破 5,000 万美元、主打视频数字人生成的公司。HeyGen 创立之初,曾同时在旧金山和深圳设有团队,国内主体名为 “诗云科技”。然而,早在 23 年 12 月,诗云科技便已申请注销。这是一个在 AI 浪潮还未全面破圈时,就敏锐察觉风向并早早做出抉择的例子。

Manus

Manus 背后的 “蝴蝶效应” 公司在 25 年 6 月将总部迁至新加坡。从地理和市场角度看,这是一个相对中庸且稳妥的折中选择。然而,在 25 年底官宣被 Meta 以 20 亿美元收购后,26 年 1 月,中国商务部表示将会同有关部门对该项收购进行合规性审查。

MiroMind 中国研发团队

MiroMind 是陈天桥在受 DeepSeek 启发后,出资支持成立的 AI 团队。当时梁文锋向陈天桥推荐了代季峰作为研发负责人,代季峰曾长期在微软亚研院和商汤工作,后任教于清华大学电子工程系。

26 年 1 月初,团队发布了首个主打深度研究(Deep Research)的 30B 小模型 MiroThinker 1.5。然而,发布不到半月,代季峰便确认离职。据了解,由于法律合规及地缘因素,陈天桥难以继续支持国内的这部分研发力量,原中国团队不得不突然寻求独立融资或新的发展空间。

这三个团队的境遇,折射了 23 年到 25 年间,AI 竞争已彻底成为大国博弈的核心一环。它不仅关乎算法与算力,更受到市场以外的诸多因素制约。

这是所有创业者必须直面的现实:美国也有公司不要中国市场,比如 Anthropic。

回到那些希望基于全球顶尖模型开发应用的创业者,决策基点或许在于:

- 核心驱动力:全球最领先的模型在未来一段时间内将由谁主导?

- 场景匹配度:你服务的场景需要的是最尖端的技术探索,还是极致的性价比?

- 发展策略:是优先追求产品性能与规模、忍受长期亏损,还是寻求阶段性盈利以自保?

开源社区与全球研发共同体之间依然存在着超越国界的协作。人类最重要的技术进展,很难长期被限制在某个狭小范围内。当然,这个 “长期” 到底是多久,将直接决定一批公司的成败与生死。

5. 具身智能

关键词:投资与上市潮、具身智能三要素、落地应用

投资与上市潮:具身智能的中国优势

根据中国信通院《具身智能发展报告(2025)》,截至 25 年底,中国具身智能和机器人领域的年度融资总额已高达 735 亿元。对比之下,几家头部大模型公司(含智谱、MiniMax IPO 融资)的同期融资总额约为 182 亿元。

火热也体现在估值上。在美国,具身公司的估值远低于大模型公司,如最贵的 Figure 估值 390 亿美元,是 OpenAI 的 1/20。而在中国,两者并驾齐驱:银河通用在 25 年底估值已达到 30 亿美元;而即将于 26 年上半年 IPO 的宇树科技,市场对其市值预期甚至直指 500 亿乃至千亿元人民币。

同时,源源不断的新具身团队仍在涌现,25 年新成立的公司就有:从华为、百度自动驾驶部门走出的陈亦伦、李震宇创立了它石智航;旷视联创唐文斌等人创立了 “原力灵机”;理想前自动驾驶技术研发负责人贾鹏等人创立的至简动力;华为诺亚方舟实验室前首席研究员李银川创立的诺因知行;月之暗面前强化学负责人宋鸿涌创立的 Android 16;以及星海图联创许华哲,也正在筹划新一次创业。

为什么具身智能在中国格外火热?除了技术变化的驱动,还有三个原因:

  1. 政策与制造业红利:具身智能有硬件本体,是地方政府招商引资的 “舒适区”,能落地看得见的产线。全国已建成及在建的 “具身智能训练场” 已接近 30 家,这种 “遥操作采集数据” 的场景本身就带动了具身智能机器人的初期收入和应用落地。
  2. 供应链比较优势:中国成熟的供应链能显著降低本体成本。例如,宇树科技推出的 10 万元级人形机器人,已成为全球实验室的主流开发工具。
  3. 更明确的退出路径:中国二级市场对制造业更友好。除了宇树,智元、银河通用、星海图等公司据传均计划在 26 年冲击 IPO,他们多选择港股。即使是像智元机器人收购上纬新材股权这种尚未完成实质 “借壳” 的动作,也能让后者的市值从 30 亿暴涨至 500 亿以上。

一批具身公司计划上市,港股宏观行情可能发生波动,以及很多公司还在亏损——这几个因素碰到一起——这场具身上市潮会如何发展?会成为 26 年非常值得关注的一个行业悬念。

具身智能三要素:数据、模型与本体

具身智能进展可被观察的 3 个核心指标是:数据、模型和硬件本体。

其中,数据和模型,是和智能能力直接相关的。行业的共识是,数据是当前的最重要课题,更准确说,是如何规模化且相对低成本地获取大量、有效的数据。

在怎么获取数据上,现在是八仙过海、各显神通。主要的方式有以下几种:

- 通过遥操作来获取真机数据,这个方式需要造很多机器人,投入比较大;

- 在仿真环境里获得数据,再迁移到真机上,即 Sim-to-real;

- 从视频里获得数据;

- UMI(universal manipulation interface),主要是通过让人在做任务时,戴上手套等可穿戴设备,来采集手部位姿、力控等数据。

- 让机器人自己做任务,失败后自己调整,即通过 self-play 获得数据。

目前流派纷呈:有侧重 “真机遥操作” 的,有侧重 “仿真迁移(Sim-to-Real)” 的(如银河通用、Hillbot),也有利用 “视频学习” 或 “穿戴设备(UMI)” 采集数据的。尽管对于 “仿真数据是否是大坑” 仍有分歧,但组合多种数据源已成主流。

在模型上,当前行业相对主流的技术路线有 VLA、端到端,还有常被提及的世界模型,它们不是平行概念。

在 148 期,对它石创始人陈亦伦的访谈中,他对这几个概念有清晰、简单的总结,这里结合更多资料做了补充。

- VLA 模型(Vision-Language-Action):目前的主流路径,即通过多模态 VLM 训练出直接输出机器人动作的神经网络。

- 端到端:试图用一个深度神经网络解决从感知到规控的全过程。

- 世界模型:现在大家主要探索的方向是 “生成式的世界模型”——从世界的这一个状态,预测和生成世界的下一个状态。如果以 2D 视觉信息表达,是可以无限延续的视频生成模型;所以当 OpenAI 发布 Sora 时,便有人认为这是世界模型的雏形。若以 3D 视觉信息表达,便是 Google 在 25 年发布的 Genie 3。它能生成一个可供探索的 3D 空间,并配合 Google 的另一个 AI 项目 SIMA 2,让用户创建的 Agent 在其中自由移动。而真正被期待的 “完整的世界模型”,是能实现与环境和物体的直接交互——比如当你戳破一只气球或摘下一朵花时,系统能符合物理规律地预测并生成交互后的下一个状态。

硬件本体则是一个多学科交织的复杂系统工程。

非常推荐《晚点》25 年 10 月发布的一篇报道:《特斯拉人形机器人再延期,因为双手只能用六星期》(李梓楠),深入还原了第三代 Optimus 设计延期背后的供应链细节,解释了为何当时 Optimus 的灵巧手寿命极短、故障率高,且由于设计原因无法局部修理,一旦损坏只能整体更换。此外,整个机身还面临着手臂与腿部关节的稳定性、减重以及续航等重重挑战。一位被 Optimus 屡次拖延的供应商吐槽:“老马(Elon Musk)的信誉分,现在恐怕连充电宝都借不出来了!”

落地应用:从实验室走向 “陪伴”

26 年初,智元机器人宣布实现了 5000 台的销量;而宇树则称其纯人形机器人 25 年的实际出货量超 5500 台(不含四足和轮式),本体量产下线已超 6500 台。

目前的落地方向主有 5 个:

研发

目前的交付大头依然是卖给具身智能训练场、高校实验室及研究机构。研发需求也是真的需求。只是在 25 年这波训练场建设热潮中(中国已建成和在建的数采工厂已有 30 座),需要甄别那些名为 “智能训练”、实为 “工业园地产” 的项目。

表演与展示

25 年 7 月,中国移动下达了总额 1.24 亿元的人形机器人采购大单,其中智元拿到了 7800 万,宇树拿到了约 4600 万。这些机器人除了用于机房巡检,很大一部分功能就是展厅接待和营销宣传。

市场上也已出现专门租赁宇树机器人的公司。据报道,靠商演收取的租金,最快两周到一个月就能收回本体成本。不过很多视频里机器人的酷炫动作,其实仍由真人近距离遥控完成,而非机器人自主完成。

商业与家庭服务:最热门却难啃

研发和表演需求都有阶段性,也有比较明显的规模上限,长期大家想实现的,还是让机器人进入工厂、商店甚至家庭里,自己干活。

虽然 Sunday Robotics 或 1X 的原型机在视频里表现惊人——比如叠衣服、拿高脚杯——但在真实的餐厅、酒店或家庭里,我们依然很难见到它们的身影。这需要机器人能处理多种家务、适应不同家庭环境(一定的泛化性),更要极度耐用且安全。

工业生产:被寄予厚望的 “深水区”

工业场景相对封闭,非从业者可能难以及时判断进度:

机会:对传统机器难做(如处理线束、布料等柔性物体,或者电子设备精密组装中需要精细力控)或人工太贵、缺工的环节,更通用的具身智能机器人有渗透的机会。

挑战:在成熟的工业门类中,人形机器人面临着 “专机”、传统工业机器人的竞争。现有方案在负载、精度和生产节拍上,短期内超过人形机器人。

工业领域还存在有趣的 “三赢” 潜规则:具身公司向供应链供应商承诺订单,供应商反手买入具身机器人并在二级市场通过相关概念拉升股价。这可能会让机器人在并未真正达到可用状态时就销量先行。

陪伴与娱乐:具身与 AI 硬件之间

陪伴需求不需要极高的智能和任务规划。这类产品的逻辑更接近消费电子:不讲长远的技术故事,直接靠销量和用户口碑说话。它们不需要等待具身智能下一阶段的突破,而是靠现有技术的成熟组合快速回本,再反哺长期研发。

宇树的消费级机器狗 Go1 累计销量已达数万台。而由地平线前副总裁余轶南等人创立的维他动力(Vbot),其超能机器狗在 26 年 1 月的预售期内拿到了 6540 台订单。不过这些订金在锁单前可退,到 26 年 3 月正式锁单并开启交付时,能反映更实际的需求。

我们接触的很多从业者都预言,26 年,具身领域会进入规模化应用落地元年。接下来的 10 个月,我们会看到,这更多是一种期待,还是真的是一个判断。

6. AI 硬件

关键词:入口级 VS 多样化、深圳

入口级硬件 VS 多样化

计算机科学家 Alan Kay 在 1980 年代的一次演讲中说过一句名言:那些真正认真对待软件的人,应该自己去做硬件。

这是做 AI 硬件的一种出发点:把硬件视为大模型软件系统的载体,寻找下一个大规模的硬件入口。

入口级硬件:AI 眼镜为何呼声最高?

AI 眼镜被很多人视为这个入口级硬件的备选:有望成为大量用户每天高频使用、能支撑繁荣应用生态的硬件。

所以现在做 AI 眼镜的公司很多,而且有不少是大公司。Google、Meta、阿里巴巴、小米、理想汽车等都已发布自己的 AI 眼镜。

眼镜之所以有潜力成为 AI 的入口级硬件,是因为在交互方式上,它具备手机做不到的两个特点:hands-off 和 always-on。

- Hands-off 指可离手操作,通过说话直接下达任务;若结合显示技术,还能快速、高效接收信息。

- Always-on 指眼镜可全天佩戴。它是戴在脸上、最接近人感官中枢的传感器平台,可以采集接近人眼视角的视觉数据,也能获得声音数据。用户层面的功能包括抓拍和录音;技术层面的长期价值则是获取设备此前难以获得的真实世界的物理数据,这些数据有助于进一步开发 AI 与理解用户。

这个思路也让人想到一个非眼镜的 AI 硬件产品 Looki。Looki 由美团前智能硬件负责人孙洋创立。在《晚点》“100 个 AI 创业者” 系列中他提到:“互联网上的数据已经被大厂分得差不多了,但更大的数据在物理空间里。”

Looki 的形态是可贴在胸前的便携相机,可抓拍并录音全天生活片段,再自动总结成视频或漫画。和眼镜一样,它是传感器平台,只是更轻、更无感。

AI 眼镜的新交互特性既能提升用户体验,又能因独特数据反哺 AI 技术。《晚点》对 Viture 创始人姜公略的访谈中,对 AI 与眼镜关系有更多讨论。

AI 眼镜的难点也在于当前技术下交互体验仍不足。

- Hands-off:语音已相对成熟,但显示技术仍存在清晰度、视角和眩晕问题。显示重要性在于,语音是自然输入方式,却不是高效信息接收方式;若没有显示,多数场景直接戴耳机即可。行业甚至尝试给智能耳机加摄像头,先实现语音与拍摄,再解决显示。

- Always-on:需要极高舒适度,而电池、传感器和芯片带来续航、重量与发热问题,工程实现困难。

因此 AI 眼镜仍处早期阶段,产品形态尚未收敛:有的眼镜带拍摄,有的不带;有的有显示,有的没有。

不同功能选择对应不同开发路径:

- 一种是一步到位做完整产品,例如 Vision Pro,但其重量与价格已证明当前技术环境不支持。

- 另一种是从简单功能做起。Ray-Ban Meta 经过多年迭代:第一代反响有限,第二代功能相似但体验明显改善,销量超过 300 万台;25 年 9 月第三代加入显示,即 Ray-Ban Meta Display。媒体报道称 Apple 也计划在 26 年第二季度推出轻量化、不带显示的 AI 眼镜。

- 还有 Google:其早在十多年前推出眼镜设备,25 年底宣布与合作伙伴推出新 AI 眼镜,Google 提供 Gemini 模型能力,合作伙伴提供硬件与其他能力,属于眼镜 OS 生态路径,合作伙伴包括 Xreal 等中国公司。

多样化

前面对入口级硬件的讨论,是基于电脑到手机,再到下一个智能设备的推演和类比。而类比有时是危险的,AI 时代也有一种不同的可能:就是在智能手机之后,并不会出现一种规模巨大、形态相对单一的智能设备。

AI 的硬件形态可能就是分散和多样化的:包括已经存在的手机,甚至汽车。比如像阶跃星辰、面壁智能等大模型公司,也在和车企合作;也包括一批利用大语言模型或生成式模型某些特性的单功能新硬件,从特定场景切入并做到极致。

典型例子是 Plaud。这是一款贴在 iPhone 背板上的录音设备,本质上类似录音笔,但有两点不同:

一是硬件形态解决 iPhone 不便通话录音的痛点,通过振动收音实现录音,并因贴附手机提升使用频率。

二是录音处理使用大模型技术,可生成场景化摘要与 To-Do 总结。

Plaud 第一代 23 年 6 月上市,立项早于 2022 年底 ChatGPT 发布,使其能在热潮后迅速加入 AI 总结能力。团队配置也有特点:创始人许高连续创业三次,非工程背景,但组建了硬件经验丰富的团队,如曾在龙旗股份及 “糖猫” 项目工作的刘巍。公司成立时间不长,已有十位合伙人。据官方信息,Plaud 累计销量已超过 100 万台。

这个案例说明,硬件成功核心仍是功能与需求匹配,而非是否使用 AI。

另一类资本市场关注度高且有销量的 AI 硬件主打健康管理。例如曾在字节跳动负责 Coze、AI 眼镜与豆包手机的潘宇扬推出 Odyss AI 项链,用多模态视觉记录饮食并提供健康建议。他反对把 AI 硬件仅当作大模型载体,而忽视具体用途与用户需求。

还有一些健康类硬件与大模型关系不大,如 2013 年成立的 Oura Ring,累计销量 550 万枚,可做睡眠与活动监测,估值超过 100 亿美元。另有 AI 祈祷戒指等结合宗教仪式的用途。

除实用能力产品外,还有强调情绪或陪伴价值的 AI 硬件。《晚点聊》访谈过 Haivivi 的李勇、Fuzozo 的孙兆志,测测创始人任永亮也计划推出陪伴硬件或机器人。三位创始人的共识是:除语音质量与延迟外,对话情绪体验、角色设定与 IP 同样关键。

以 Fuzozo 为例,其通过形象设计与对话反馈增强情感互动,例如根据对话生成情绪卡片与日记。但这类产品的持续使用率仍受用户时间投入限制。

深圳,硬件创业的共性

关于 AI 硬件的第二个关键词是深圳。不止 AI 硬件,这里已成为更广泛科技硬件的全球高地。

今年《晚点聊》有三期相关节目:第 120 期访谈刚上市的影石 Insta360 创始人刘靖康;第 141 期访谈智能轮椅 Strutt 创始人洪小平;第 145 期访谈外骨骼公司极壳 Hypershell 创始人孙宽。《晚点》近期还发布了对拓竹创始人陶冶的专访《对话拓竹陶冶:我们一群工程师,一起造一个朴素的硬核公司》(贺乾明、黄俊杰)。这些公司都在深圳。

这些访谈中都会谈到 AI,因为具备一定门槛的硬件产品本质是软硬件结合产品,必然使用最新软件技术,包括 AI。但这些公司的起点都不是 AI,创始人也不会强调 “AI 原生”。

如果 Alan Kay 的那句话——所有认真对待软件的人应该自己造硬件——代表软件中心视角,那么许多直接做硬件的公司有更朴素的出发点:做满足用户需求且技术可实现的产品。深圳汇聚了最多这样的公司。

消费级硬件已成为热门投资领域。尤其 25 年下半年,一级市场对硬件的关注度甚至超过 AI,这与 Insta360 上市后的股价表现及拓竹等公司的标杆作用有关。

深圳这批公司存在明显共性。许多由大疆前员工创立:陶冶曾任 Mavic Pro 产品负责人,洪小平曾负责大疆激光雷达;庭院机器人公司松灵创始人魏基栋、户外储能公司正浩创始人王雷、AI 吉他 LiberLive 创始人唐文轩也来自大疆。这些公司在做事风格、人才构成、产品追求上与大疆相似,地理上也集中在深圳西丽大疆总部 “天空之城” 周边。

这些公司还与两个机构密切相关:李泽湘参与组建的深圳科创学院与东莞松山湖机器人基地。去年 11 月曾集中拜访两地。科创学院位于大疆隔壁,一些办公室可直接看到总部,被称为 “疆景房”;松山湖基地提供共享工厂等创业支持设施。

不少新公司孵化于这两个机构,如自动泡沫轴云望创新、电助力自行车配件 Kamingo、家庭豆腐机极豆。

此前《晚点》也访谈过李泽湘,主题是如何培养科技创始人。李泽湘与机器人基地的一个思路转变是从 B 端转向 C 端。过往孵化经验使其意识到,年轻创始人更适合 C 端创业:B 端更依赖商业关系与管理经验,C 端可通过创新与产品定义快速打开局面;一旦形成品牌,又能反向拉动供应链发展,而深圳及中国完善供应链能支持这种创新尝试,形成正循环。松山湖基地已梳理出完整创业流程,见《晚点》文章《我们要培养什么样的工程师?李泽湘教授对三十年工科教育改革的回顾》。

这类公司已形成较稳定的创业路径:

- 面向高购买力欧美市场,以创新体验和高品质获取较高毛利,再投入研发与竞争;

- 产品常通过 Kickstarter 众筹首次亮相。

其主要服务需求大致分为几类——松山湖基地展厅即按此分区:

- DIY Maker 类:3D 打印、桌面级 CNC;

- 户外出行:户外储能、电助力自行车、摄影设备;

- 娱乐:智能乐器等;

- 家庭服务:桌面洗碗机、除草机、泳池机器人、宠物烘干机等。

- 发展路线可预测是这类创业的特点。但要成长到一定规模,普遍需要跨越两道门槛。

一是从小众市场扩散到大众市场。无人机、消费级 3D 打印起初很少有人预料规模可达百亿级。除产品外还需关键应用或生态:无人机找到了航拍场景;拓竹在推出消费级 3D 打印机时同步建设 MakerWorld 模型社区,丰富模型生态成为普及关键。

二是后续竞争策略。优秀品类必然吸引竞争者。扫地机器人需求广泛,迅速完成创新扩散,短期内成为红海并出现淘汰。

Insta360 创始人刘靖康早期长期坚持 “平衡收益与风险”,在垂类市场积累利润与能力,避免过早进入最激烈竞争。他在 23 年采访中表示:“长远看,激烈的竞争不可避免,但我的初衷是,这件事越晚到来越好”。但到 25 年访谈时,我们聊的最多的就是竞争,包括 Insta 360 在一些品类里从攻到守的变化。

如今随着 Insta360 旗下影翎无人机发布,以及大疆推出全景相机,两家影像公司在多个品类形成交错竞争、互为攻守。

7. AI 中的人

关键词:天价薪酬与大裁员、使用 AI、意义感

天价薪酬与失业

25 年 11 月在硅谷,一周内听到的故事高度两极:有人拿到 Meta 上亿美元 offer,有人创业即融数千万乃至上亿美元,也有人因股价与投资获利;同时也有人清仓、做空亏损,或被裁员。

Amazon 在 25 年 10 月裁员 1.4 万人,26 年 1 月再裁 1.6 万人。Layoffs.fyi 统计显示,Google、Meta、Microsoft 等 25 年共裁员约 6–8 万人,多为白领岗位。

湾区是 AI 双面影响的缩影:这里同时汇集快速增长的 AI 企业、天价人才竞争、屡创新高的股价,以及规模化失业。

关于 AI 对中国人才市场的影响,可见《晚点聊》第 133 期对脉脉创始人林凡的访谈。

从脉脉数据看,中国大厂在激进扩招 AI 相关人才:自 25 年 2 月开始,AI 岗位发布量的环比增速多月保持两位数。

一些公司的员工氛围也在变化。《晚点》在 24 年采访林凡时,他说阿里员工没那么高调了;到 25 年,随着股价被 AI 预期推高,阿里士气又回来了,“Make Ali Great Again”。

与此同时,部分岗位需求在缩水。林凡提到,中层管理岗的职位需求减少约 25%。

使用 AI 的人

《晚点聊》第 109 期对卡兹克的访谈中,他作为产品与设计背景的前金融科技从业者,从 23 年开始边学边做,逐步把工作流程 AI 化:抓取每日 AI 新闻并用模型排序筛选;寻找 “低粉高赞” 内容并分析传播特征作为选题参考。他还用 AI 组织线下活动:从报名留言中筛选真实参与者,并按复杂规则自动分组排座,过去需要多人做几天的工作,现在显著节省人力。

他的学习方法是 “干中学”:从真实需求出发;如果不知道做什么,就从工作中最不想反复做的部分开始——把重复三遍的事 AI 化。

意义感

我记得 23 年 AI 热潮初期,有一天看到北大胡泳老师回答:AI 到来后,普通人会面临什么挑战?他当时说:人需要重新理解并感受到,人的意义并不在于工作。

社交媒体上常有 “不想上班、只想躺平” 的调侃,但对大多数人而言,自我认同、成就感与意义感的主要来源仍是工作。

我一直不太相信 “AI 解放工作时间,剩下的岁月就享受生活、爱与和平” 的许诺。我们的教育与环境并未充分鼓励人们享受生活、寻找热爱与激情。现在 AI 来了,说工作我替你做,你去享受生活吧——很多人未必立刻具备这种能力。

如果被 AI 替代,首先是失业与经济问题;即便存在 UBI(全民基本收入),意义感缺失仍可能成为更长期挑战。

在《晚点聊》第 116 期讨论田渊栋小说《破晓之钟》时提到:短期,人会因资源增加或无法胜过 AI 而产生空虚;随后转向 “独特性竞争”,通过创意与个性证明价值,但过程痛苦,因为不是每个人都有创造独特性的才华和能力。

但他相信长期可能是乐观的,社会可能从 “教育—技能—工作—收入” 的循环,转向兴趣驱动的活动,最终出现职业多样性的爆发,“更多人可能变得更快乐了一些”。

《晚点聊》第 121 期中,当时刚卖掉房子、清理了大量物品,和家人搬进一辆房车里的黄东旭给出的答案是:体验——来到这个世界,体验这段旅程,“大模型不能替你活过”。

自大模型热潮以来,每个春节似乎都有意外发生:23 年是 ChatGPT,24 年是 Sora,25 年是 DeepSeek-R1,26 年春节,会是什么?

不管是什么,它都会出现在我们之后的节目和文章里。AI 的轨迹仍在延续,我们的记录也是。

题图来源:《少年派的奇幻漂流》