全面理解机器智能与生成式 AI 加速的新工业革命|ai|ibm|人机交互|大模型|机器人|李飞飞

欢迎星标果壳硬科技

“在任何一项足够先进的技术和魔法之间，我们无法做出区分”，这是英国科幻作家亚瑟·克拉克三定律之一。相信过去的一年多，令人目不暇接的生成式 AI，就让大家体验到了什么是魔法般的科技。现在应该没人会质疑，最先进的语言模型可以完全通过图灵测试；我们靠感官已经很难分辨 AI 生成的图像和音乐了，AI 技术几周的变化，就超过了过去几年的发展。

Jensen Huang 在台北 Computex 2024 上这样的比喻：“在十九世纪 90 年代末期，Nikola Tesla 发明了交流发电机，而 Nvidia 现在发明了 AI 发电机。交流发电机生成电子；AI 发电机生成的是Token，这两样东西都有巨大的市场机会，Token 几乎可以应用于每个行业，这就是为什么这是一场新的工业革命”。

Jensen 关于“新工业革命”的演讲片段

在上一篇《》之后，时隔一年半，我希望用这篇《智变时代》来温故下 AI 领域波澜壮阔的一年，尝试抓住生成式 AI 变革的本质，带大家拨开喧嚣与迷雾，追寻科技巨头与 AI 机构们在更高智能道路上的探索，以及变革会如何全面改变人机交互、世界的产业、经济还有我们自己。

全文 36000 字，共分五个章节：

模型 - 竞争、泛化与变革的本质
应用 - 智能代理、智能体与组织新形态
智变 - 廉价诱导需求、从中心到边缘算力、新工业革命
演化 - 模型如何理解和进化、自主目标与自动化的 AGI
选择 - 职业变迁、自我提升与科技恒大

预计阅读时间九十分钟以上，请先点赞、收藏、转发，找个不受打扰的时间再阅读。无论你是科技从业者、AI 爱好者还是行业专家，都一定会收获满满

01 模型 - AI 的群雄逐鹿

“我认为生成式 AI 革命在规模上可以与工业革命或电的发明相提并论。” - 神经网络之父 Geoffrey Hinton 去年离职 Google 后在接受 CBS 采访时提到。

2022 年十一月底 OpenAI 的 ChatGPT 横空出世，原本被通胀和加息折磨得萎靡不振的美股，突然被新一轮的生成式 AI 革命给原地托起。除了 Nvidia 卖 GPU 带来了真实收入暴增之外，大多数的热情并非来自于收入增长，而是由于大家急于构建更大的 AI 模型，热情来自于对未来业务的梦想。大多数公司心目中明确的目标就是赶上 OpenAI，甚至超越它，尤其是美股的科技七巨头（Magnificent Seven）。

1.1 逐鹿 OpenAI

2023 年美国的科技巨头可以用两种状态来形容：All in AI 与赶超 OpenAI！经过这一年多的努力，如今许多公司在 LMSYS Chatbot 竞技场 ELO 排名上已经接近 OpenAI 最新的 GPT-4o，其中 Anthropic 今年三月推出的 Claude 3 Opus 一度超过了当时的 GPT-4；在某些方面，如上下文长度和视频模态，Google 的 Gemini Pro 已经走在了前面。

那么问题来了，OpenAI 先发优势能够保持多久？Sam Altman 用他独特的驾驭能力，先是吸引微软为 OpenAI 直接投入超过 100 亿美元的算力支持；现在又通过与 Apple 的合作，将 ChatGPT 整合到了 Apple 生态，从边缘设备入口直接获取用户，毕竟 ChatGPT 的活跃用户已经连续几个月都没有增长，而最大对手 Google Gemini 的用户却在节节攀升。

第一方面是算力。按照依旧可行的规模理论（Scaling Law），足够多的算力和足够好的数据，就会有足够强大的模型！因此，只要算力足够，Google 与 Meta 就能匹敌 OpenAI。据传 Gemini 2 Ultra 将在各方面超越 GPT-4 Turbo。此外，Meta 预计在今年夏天发布的 Llama 3 405B 也将达到与 GPT-4 匹敌的水平，还是开源的。这意味着只要拥有足够的 H100 服务器，就能达到 GPT-4 级别的智能。

在微软这边，虽然巨额投资了 OpenAI，但 GPT-4 再强大也毕竟不是自己的。从 Semi Analysis 的内部消息了解到，微软也并没有将投资的大部分算力直接给到 OpenAI 使用；就在不久前，微软完成了对 Inflection AI 的收购，把 Deepmind 的前联合创始人穆斯塔法·苏莱曼 (Mustafa Suleyman) 纳入麾下，准备利用他们专业的预训练团队和数据集，再加上自己的合成数据，从头训练一个和 GPT-4 相当的大约五千亿参数规模的 MOE 模型 MAI-1。

配图1.01：Mega 7 与 OpenAI 的竞争格局图

另一方面是数据。因为起步早，OpenAI 在收集使用数据方面一直处于领先地位。但现在情况已经发生了改变，公开的用于训练的文本数据几乎耗尽，所以大家都不约而同地采用合成数据。但文本之外的图像和视频，需要更直接地接触消费者，才能拿到新数据。Google 与 Meta 各自的产品线都覆盖了超过三十亿的用户，这是最大的优势。所以，每次有人问 OpenAI 有没有拿 Youtube 的数据来训练，他们都避而不谈。

模型的竞赛，就是资本和用户的竞赛。OpenAI 打响了第一枪，山姆·奥特曼四处游说，搞募资的同时，还得想方设法扩大 ChatGPT 的用户规模。现在 Meta 和 Google 全力以赴，他们从算力到模型再到用户，配置齐备，关键是资本充足；微软虽然投资最多，但和 OpenAI 纠结的关系，让自己不得不背地里另起炉灶；Amazon 也有同样的问题，没法控制自己投资的 AI 联盟 Anthropic，他们就像是在参加一场独臂搏斗。

目前，只有迷一样的 Apple 在竞赛中不动声色，作为终端之王，控制了最有价值的入口。让模型变小能在设备上直接运行，让 iOS 变成 aiOS，应该是 Apple 最大的需求，后面更复杂的智能可以慢慢来，毕竟用户跑不掉。

这一回合中，Nvidia 才是最大的赢家，因为竞争越激烈，对 GPU 的需求也就越强烈。对科技巨头来说，他们必须不断加大投入才能跟得上 OpenAI 领跑的步伐，或者维持他们在其垄断领域的市场份额，例如 Google 的搜索。这将使其对数据中心的支出持续不断。因此，他们的利润空间将会被压缩，而 Nvidia 则会从中获利。

OpenAI 在 2022 年就完成了 GPT-4 的训练。从那时起，他们完全专注于下一代模型，尝试新的架构、数据以及更大的规模，而后来者几乎花了一年多的时间，才勉强追平 GPT-4。解铃还须系铃人，OpenAI 能否继续领跑这场大模型的竞赛，在第二回合中也能胜出，就要看今年年底新版 GPT 的真实表现了！

配图1.02：GPT Timeline（SITUATIONAL AWARENESS）

“We can say right now, with a high degree of scientific certainty, GPT-5 is going to be a lot smarter than GPT-4” - 我可以很有把握地说，GPT-5 会比 GPT-4 聪明得多

- Sam Altman

1.2 变革的本质

OpenAI 的一鸣惊人并非凭空而来，GPT-3.5 是多年来其大语言模型 GPT 系列中最完善的一次迭代，并通过 ChatGPT 这样一款易用的产品，成功的把大语言模型推向了大众，短短两个月就实现了一个亿用户的增长，打破了之前 Tiktok 所保持的记录。我在《机器之心的进化》中详细介绍过这轮生成式 AI 变革的来龙去脉，那时 ChatGPT 还没发布。现在，经历了这一年多的模型争霸赛之后，我们可以从大语言模型（LLM）发展的视角，重温这轮 AI 革命，来理解其背后的本质。

架构与算力

由于文本是由长短不一的字母和单词序列组成的，因此语言模型需要一种能够理解这类数据的神经网络。20 世纪 80 年代发明的递归神经网络（RNN）可以处理单词序列，但其训练速度较慢，而且会遗忘序列中的前一个单词。

1997 年计算机科学家 Sepp Hochreiter 与 Jürgen Schmidhuber 发明了长短期记忆（LSTM）网络，解决了这一问题。LSTM 也是一种递归神经网络，具有特殊的组件，可以将输入序列中过去的数据保留更长时间，LSTM 可以处理几百个单词长度的文本串，但其语言能力有限。

配图1.03：语言模型发展史 - 从 Nvidia 在 2016 推出第一台 DGX 到现在算力提升了 1000 倍

大语言模型背后的突破，来自于 Google 的研究团队在 2017 年发明了转换器架构（ Transformer），这种神经网络可以跟踪每个单词或短语在序列中出现的位置。2018 年，OpenAI 果断地将转换器模型与无监督学习相结合，推出了 GPT，这是一种在未标注的数据上预训练模型的方法，让程序可以自己找出数据中的模式。在此之前的机器学习大多依赖于监督学习和标注数据，但手动标记是一项非常缓慢的工作，因此限制了可用于训练的数据集的大小。

Ilya Sutskever 领导的 OpenAI 研究团队很执着的确信，用 Transformer 可以并行计算的架构和无监督学习的方式，只要增加算力和数据规模就能训练出更好的模型，从而通向通用人工智能（AGI）。经过两年多的迭代，在 2020 年初用 API 的方式推出了 GPT-3，然后于 2022 年底通过人类反馈的强化学习的技术（RLHF）优化出了 InstructGPT，也就是 GPT-3.5，很好地减少了 GPT-3 产生的错误信息和冒犯性文本的数量。

配图1.04：Alignment 步骤解释

InstructGPT 更善于遵循人类的指示，在 AI 术语中被称为对齐（Alignment），可以让模型的输出更加安全，错误、幻觉和攻击性语言更少。简而言之，InstructGPT 不是一个混蛋，除非它被要求成为一个混蛋。在所有这些成果之上，OpenAI 在山姆·奥特曼的推动下，顶着巨大的压力对公众开放了 ChatGPT。至此，一个新的智能时代就被开启了！

人才网络

虽然 Transformer 架构最早诞生于 Google 的研究，但在庞大的组织内部，并没有得到特别多的重视。“也许 Google AI Research 太像一个学术研究机构了，大家更重视想法的涌现和发表论文，但在坚定的采用一种技术方案，将其工程化和产品化上却被忽视了” OpenAI 的总裁格雷格·布罗克曼（Greg Brockman）在最近一次播客采访中这样描述，这也是伊尔亚的团队能够孤注一掷取得成果的主要原因。

配图1.05：硅谷 AI 人才流动图（Source: Coatue AI Report 2023）

Google 不仅是这次智能革命的架构发明人，也是 AI 人才的黄埔军校。最早《Attention is all you need》论文的撰写人分别创建了 Adept 和 Cohere，OpenAI 也吸引了最多的 Google 研究员加入；在 GPT-3 之后，负责模型安全的 Dario 兄妹因价值观不合，自己创立了 Anthropic，这是 OpenAI 组织的第一次硬分叉；就在 2024 年五月，首席科学家 Ilya Sutskever 和超级对齐的负责人 Jan Leike 也宣布离职，这会是 OpenAI 的第二次分叉么？

他们会去向哪儿会做什么都还不清楚，但毫无疑问这也是硅谷人才高密度和高流动性的最大特色，技术永远不会被一个垄断的机构限制住，新的想法总能找到适合的土壤发芽，和大自然生态的多样性一样。每一次创新的出现，都离不开硅谷的身影。

就在 GPT-4 发布后的一周，Ilya 与 Nvidia CEO 在 GTC 活动上有一个对谈 —— “AI Today and Vision of the future”。其中 Ilya 提到，他坚信两件事情，第一就是模型的架构，只要足够深，到了一定的深度就会 “Bigness is the Betterness”，简单说就是大力出奇迹，算力加数据，越大越好，这也是为什么转换器架构（Transformer）要比他们之前使用的长短时记忆（LSTM）架构要适合扩展；第二就是任何范式都需要一个引擎，这个引擎能够不断被改进和产生价值，如果说内燃机是工业革命范式的动力引擎，现在这个引擎就是 Transformer。

毫无疑问，Transformer 是这次生成式 AI 变革的主角，配合算力、生态还有人才自我强化的过程，其架构潜力还有很大的挖掘空间，这也是 Ilya 还有 Anthropic CEO Dario Amodei 在各自采访中多次强调的看法，领军企业都用脚投票了，从 LSTM 到 Transformer 出现花了二十多年，我们还有足够的工程方法让这一架构的潜力再燃烧五到十年。模型与算力的组合，就像内燃机和石油的组合那样，成为了通用平台，你提供能源，我就能输出动力。

1.3 泛化通吃一切

“最重要的不是它解决的具体问题，而是广泛意义的通用性在增加”— Sam Altman 在达沃斯论坛的演讲

大语言模型真的理解世界么？Hinton 教授在去年 GPT-4 刚发布的时候与吴恩达（Andrew Ng）的一次连线对话中聊到了这个话题，他们的答案是“能理解”，很显然 Yan LeCun 教授不同意这个观点，2021 年一篇来自华盛顿大学计算语言学家 Emily Bender 的论文将 LLMs 描述成“随机的鹦鹉”，暗示它们仅通过组合训练过的信息来生成文本，并不理解其意义。

但最新研究似乎证明了 Hinton 与吴恩达的观点，普林斯顿大学的 Sanjeev Arora 和 Google DeepMind 的 Anirudh Goyal 提出了一种理论 - 神经网络规模法则（Neural Scaling Laws），当模型规模增大时，模型预测文本并生成正确答案的能力就会提高，即测试损失会减少。这种关系不依赖于任何特定的大语言模型、或训练和测试数据集，而是所有这些系统都遵循的普遍法则。

他们发现，随着大语言模型规模的增加，在单一技能上的熟练度会提高，并且能够同时使用多个技能。这表明模型不仅仅能实现训练数据中领悟到的技能组合，而是能够执行概括和创造性的任务，特别是微软针对 GPT-4 这个超大规模语言的测试（Sparks of AGI - Early experiments with GPT-4），进一步证明了他们的结论。

配图1.06：AI 完成人类智能任务的基准评测对比

Stanford 大学 HAI 小组在 AI Index 2024 报告中展示了一张 AI 完成人类任务的基准测试图（Our World in Data 网站还有一份互动版）。截至 2023 年，AI 在大部分任务中的表现已经超越了人类的能力，例如 2015 年的图像分类、2017 年的基础阅读理解、2020 年的视觉推理和 2021 年的自然语言推理。当然在 2020 年之后，完成这些任务的都是大语言模型了，目前人类只有在复杂的认知任务，例如在深度阅读理解、复杂推理和高级数学问题解决上还有那么一点优势，但估计这个优势在 2025 年就荡然无存了。

世界模型

研究人员目前也只能从数学方法证明规模法则的有效性，并不能解释复杂神经网络背后的秘密。但伊利亚有一个信念：“如果你能够高效地压缩信息，你就已经得到了知识，不然你没法压缩信息”。所以他坚信最新的 GPT-4 里面已经有了一个世界模型，虽然它们做的事情是预测下一个单词，但它已经表达了世界的信息，而且它还能够持续提高能力！

在 ChatGPT 刚推出不久，Newyorker 刊登过一篇有趣的文章《ChatGPT Is a Blurry JPEG of the Web》很形象但不是那么准确的解释了大语言模型是对 Web 世界模糊的“图像压缩”。这些模型通过分析和学习大量的文本数据，构建起对世界的压缩表述，涵盖了人类的思想、情感、状态以及人与人之间的互动。大语言模型内化的世界模型能够在推理过程中模拟可能的结果空间，为规划算法提供探索的机会，并给出它想象的答案。

从语言到多模态模型

人类可以边看、边交谈，还能同时听着背景音乐和察觉危险。虽然大语言模型仅靠语言就能理解世界，但大千世界的多样性，只靠语言来描述和理解是远远不够的，因此智能不仅限于单一模态。根据伊利亚之前的观点，多模态理解虽然不是绝对必要，但确实非常有用。比如，你能亲眼看到什么是“红色”，比你用语言去描述什么是“红色”要直观的多，这就是对同一概念的多维度理解。拥有这种能力的模型可以更全面地学习世界，理解人类的行为和需求，提高任务解决能力，并克服单一模态的局限性，是让 AI 能在现实世界中运行极为重要一环。

配图1.07：多模态解释

2023 年九月 GPT-4v 的发布把大语言模型的竞赛带入了多模态模型（LMM - Large Multimodal Models）的时代，ChatGPT 可以看图说话，还能通过内置的 Dall-E 3 直接画图；几个月后 Google 的 Gemini 正式推出，直接就支持了文本、视频和声音多种模态。虽然 Gemini 模型一开始就是按照 LMM 方式设计训练的，但每次都能被 OpenAI 的产品发布捷足先登。

今年年五月，OpenAI 完成了 GPT-4 的实时听说和视频模态输入的拼图，再一次抢在 Google 之前的发布了 GPT-4o，一款全能模态模型 OmniModel。这次 OpenAI 向智能体方向的研发迈进了一大步，让 GPT 模型有能力进入现实世界了。

这种随着模型规模以及模态类型的提升，衍生出新的能力的特性，就是大家常说的泛化，也是 Sam Altman 提到的广泛的通用性增强。OpenAI 每一次升级模型，就会让很多专用的 AI 模型和一批小的创业公司所做的事情毫无意义，从最早的翻译和写作工具的替代，到最新 GPT-4o 多模态实现的语音智能助理。

很明显，训练模型的下一阶段竞争，除了合成文本数据之外，就是对话语音、音频、视频、动作控制与反馈等各种模态数据的竞争了，要让语言模型先进化成智能体，才有机会 AGI。。

这是一个残酷的时代，我们开篇就看到了过去十来年科技巨头之间从未有过的激烈竞赛，囤积算力、笼络人才，还要小心翼翼的看护好自己的护城河，大家都期望能锻造出最好的 AI 模型，获得进入 AGI 时代的门票；另一方面，做为智能生态下的创业公司，也正经历和移动互联网时代完全不同的环境，模型不是手机操作系统，它的进化速度是非线性和泛化的，你做很多事情就不能用通用性做为出发点，必须有独特的场景，你得绕着大模型的火力覆盖范围前进。

最后，做为一个普通用户，现在的 AI 是在帮你提高效率，但最终它们会在很多工作场景来替代你。那么，应该如何理解和应对这个智变时代呢？保持耐心，下文更精彩

02 应用 - 人机协作新时代

“人们总是高估一项科技所带来的短期效益，却又低估它的长期影响。” - 阿玛拉定律（AMARA’S LAW）由美国科学家，未来研究所的院长 Roy Amara 提出。

把时钟回拨到 2022 年，生成式 AI 正式进入大众视野还得是文生图的功劳，OpenAI 的 Dall-E 和 Midjourney 的奇幻效果，还有 Stable Diffusion 开源图像生成模型的各种魔改，记得当时我也是用 SD 模型来练手学习如何进行图像生成训练的 - 手动感知 GenAI 革命

但真正定义智能时代开启的还得是 ChatGPT 的发布，它让我们再一次看到了自从互联网诞生以来，多年未见过的创新密度和创业的热情；一时间能看到的科技新闻几乎全是 AI 新闻，大家在社交媒体上像追星一样追踪 AI 研究人员还有发布在 arXiv 上各种稀奇古怪的论文。但时至今日，唯一的杀手级应用依然是 ChatGPT 。

2.1 AI 应用爆发了么？

Sequoia Capital 在 2023 年九月发表了一年前那篇引领市场的《Generative AI: A Creative New World》的续篇《Generative AI’s Act Two》，里面这样写到：生成式 AI 的第一年，我们发现了一种新的“锤子” - 基础模型，并推出了一波新奇的应用，但这些程序大多是些酷炫新技术的轻量级演示，这些产品远远没有达到预期，糟糕的用户留存率就证明了这一点。

当最终用户过了新鲜体验期，对许多应用的需求开始趋于稳定，真实数据就原形毕露了。

配图2.01：AI 应用与社交应用使用率的对比

对比流行的社交应用，哪怕是最顶流的 ChatGPT，56% 的首月用户留存度，也不及社交应用的中位数 63%；一些最好的消费级应用拥有 60 到 65% 的 DAU / MAU 比，例如 WhatsApp 的比率高达 85%。相比之下，生成式 AI 应用的中位数只有 14%，AI 陪伴类别除外，这意味着用户还没有在这些 AI 原生的产品中找每天使用它们的理由。看过一个数据，在 Google Gemini 中使用最多的场景就是生成每日菜谱，这个和用搜索引擎的需求基本一样，也许这么短的时间内，大众还没充分发现使用 ChatGPT 这种对话式 AI 的原生场景。

尽管这个市场充满了噪音，还有理想与现实的不平衡，生成式 AI 已经比 SaaS 有了好得多的开局，OpenAI 在 2023 年就实现了二十亿美元的年化收入，对比上一年增长了 900%，SaaS 花了数年而不是几个月的时间才达到同样的规模。

我在《机器之心的进化》中做过些预测，拥有独特流程和优秀体验的生成式 AI 应用将胜出。在图像生成领域，Midjourney 一直以他独特的流程和品质保持领先，年收入过亿美金，是少数初创公司不靠融资就能实现增长和盈利的；另外 2023 年的另一个黑马就是 AI 搜索 Perplexity，他们用合理的产品交互解决了问答式 AI 搜索的难题，去年底的月度活跃就达到了 1000 万，感觉自己使用 Perplexity 的频次就比 ChatGPT 要高。

正如 Sequoia 在文章中提到的，市场正在进入“第二幕” - 核心竞争力将来自“客户”。用一个最近流行的说法，应用将“端到端”地解决客户的真实问题。这些应用在本质上与上一批有很大的不同，他们把基础模型作为其解决方案的一部分，而不是解决方案的全部；简单来说，你再做一个模型的包装调用，是没有意义的。

那么，那些拥有庞大客户群的上一代的软件或服务公司，他们会有巨大的优势，把基础模型整合到自己的业务流程中，提供新界面，使工作流程更具粘性，输出效果更好，例如 Adobe，这个创意领域的巨头在 2023 年丝毫不比创业公司的执行效率低，从 Firefly 的模型到产品线的升级，让人眼花缭乱，当然这也是他们的生存之战。

配图2.02：The Generative AI Market Map

其实，这种把模型融入其解决方案，从端到端解决客户需求的创新公司涌现出了很多，附上 Sequoia 的这张“The Generative AI Market Map”，就不逐一列举了。这里的核心是，我们如何看待和使用基础模型，而不是简单的封装它们，这些模型就是智能时代操作系统，需要在上面构建原生的应用程序。

2.2 智能 OS 与代理

大语言模型不是数据库，而是推理引擎！去年十月，Andrej Karpathy 在 X 上提出这个概念的时候，他还就职于 OpenAI，不过他已经在今年二月再次从 OpenAI 离职，第一次是被 Elon Musk 挖去 Tesla 研究纯视觉自动驾驶 FSD，那篇定义神经网络编程新时代的文章《Software 2.0》也出自于 Andrej，我上一篇《机器之心的进化》的副标题灵感就来自这篇。

LLM OS

Bear with me I'm still cooking (X Link)

配图2.03：LLM OS by Andrej Karpathy

SPECS:

- LLM: OpenAI GPT-4 Turbo 256 core (batch size) processor @ 20Hz (tok/s)

- RAM: 128K tok

- Filesystem: Ada002

Andrej 意思是：我们可以像使用操作系统一样来使用大语言模型，现在应该叫多模态模型更合适。这个系统的核心就是 LMM，它就像 CPU 一样处理进入的数据，计算后给出结果，不同的地方电脑 CPU 接受十六进制汇编指令，LMM 接受自然语言，也就是我们常说的提示词。

LMM 中央处理器的速度就是每秒输出 Tokens 的数量，现在 GPT-4o 已经比当时的 Turbo 快了 2.5 倍，大约 50Hz tok/s，不过模型规模越小速度越快，当然推理能力也更差。怀旧一下上世纪八十年代初期的 CPU 速度，速度慢才会限制人们的想象力，天下武功，唯快不破。

系统的内存就是 LMM 的上下文窗口（Context Window），一次推理运算最多能接受的 Tokens 数量，现在 Google Gemini 1.5 Pro 实验版已经把这个数字提升到了一千万，一次性输入二十本书和一个小时的电影；当然这里也存在架构的限制，窗口越大推理越慢，同时模型会失焦，降低推理的准确度。但充满挑战也就意味着机会无穷，前沿模型研发团队都力争做到吞吐量、速度还有准确度的最佳平衡。

在模型之外，还有操作系统的其它系统部件，例如 I/O - 用语音、视觉等模态感知；还有文件系统，让模型具备无限记忆的能力，毕竟模型不是数据库，它的内存是辅助计算的。这一年多以来，大模型应用领域最常用的方法就是RAG（Retrieval Augmented Generation），这是一种检索增强生成的方法，让模型用大家自定义的数据生成结果，这样就能处理无尽的私有数据，把模型当成高效的推理机器来使用。

配图2.04: Emerging LLM App Stack

LLM 和 LMM 是构建软件的强大的新工具，Andrej 的这个类比，会让大家找到一些熟知的感觉。其实在去年五月 a16z 整理过一个指南《Emerging Architectures for LLM Applications》，这是一份详细的 LLM 应用堆栈的参考架构，里面提到了 AI 初创公司和大科技公司中最常见的系统、工具和设计模式。

上文提到的 Perplexity 就是 RAG 的最佳应用，还有面向企业知识库的 Glean 也一样，以及我自己正在做的面向个人知识库的 Maimo，其实所有聚焦到客户流程和需求的具体应用，或多或少都搭建在这个技术栈之上。本文不讨论技术实现方法，我将稍纵即逝的概念串接起来，帮大家整理解题思路！

智能代理（AI Agent）

顺着推理引擎的思路，我们可以让 LLM 自己做自动化的多步骤推理，其间能自己使用搜索引擎，调用工具以及与其它 LLM 协作，Andrej 的 LLM OS 中就包含了这些模块。最早实现这个想法原型的是 AutoGPT 还有 BabyAGI 两个开源的智能代理（AI Agent），就在去年 GPT-4 刚发布的时候，一时风靡全球科技圈，虽然产品非常原型和早期，但是它们给出了很好的解题思路。人类给出目标，LLM 自己分解子目标，就像编程函数的递归调用那样，调用外部工具，自我评估任务是否完成，一步步实现整体目标。

现在，随着 LLM 的推理能力和速度的提高，Agent 的思路已经被很多创业公司还有科技巨头用到了自己的产品之中。例如，前段时间最受关注并且饱受非议的 Devin，来自纽约的华人创业团队 Cognition AI，可以像人类程序员一样自动写代码的 Agent，你只需要告诉它你的需求就行，由于演示视频过于科幻，导致被人揭露造假。

行业的另一端，Google 在今年的 Next 与 I/O 大会上，连续地发布了自己的 Agent 战略，并且把这个概念放在公司的 AI Stack 之上，Agent 就是接下来 Google App 的衍生。

配图2.05：Google Gemini Agent 战略

从客服 Agent 到员工 Agent 再到代码 Agent，以及最新的 Google Plan Search，可以自动化多步骤执行搜索任务的 Agent。例如，你要找一下附近有折扣的理发店并帮你完成预约，那么新的 Plan Search 能理解你的需求，自动分解任务，然后调用 Google Map 还有其它工具，自动的完成你的请求。当然 Google 现在有底气这样做，还得仰仗 Gemini 1.5 Pro 的推理能力已经达到 GPT-4 的水平了。

就连 Microsoft 也在四月底的 Build 2024 上蹭热度推出了 Copilot 产品的升级，Copilot Team 与 Studio，让 Agent 完全融入企业内部，自动化日常繁杂的会议记录与日程安排，你也能设计适合组织内部的自动化流程，让 Agent 帮你访问数据库和自动操作办公软件。

现在，软件应用范式已经转移，AI Agent 就是新 SaaS！

2.3 全模态智能体

每一次平台型技术的出现，都会催生出新的人机交互方式，个人电脑时代的鼠标与键盘，移动时代的触摸屏，现在是智能时代，我们一度认为 ChatGPT 的 LUI（自然语言对话式界面）就是这个时代交互的终点，但事实并非如此，知名科幻电影 HER 中，那种人类与 AI 全感知无障碍的对话形式，才是我们想要的。

“通过语音、文本和视觉进行推理非常重要，因为我们正在研究与机器交互的未来”，Muri Murati 在今年五月十三日那场不到半小时的超快发布会上这样告诉大家。那天 OpenAI 发布了最新的模型 GPT-4o，并且用了个很前卫的新概念，全模态模型 - Omnimoda Model。

配图2.06: OpenAI GPT-4o 的演示

GPT-4o 是 OpenAI 之前所有技术的集大成者，新模型通过端到端的神经网络，把视觉、语音和文本数据混合训练，而不是用大家常用的工程手段，先各种数据先转换成文本后，交给 LLM 处理，然后再把输出的文本转换成对应的媒体形式。这样，GPT-4o 对音频输入的平均反应时间为 300 毫秒，与人类对话的反应时间相似；而且直接拿音频数据来训练的好处就是模型能从数据中感悟到人类表达的情绪、语调、风格等等，你能听到几乎真实的人类的声音，在一段演示中感觉连训练时的环境声音都给还原出来了。

OpenAI 并没有公开 GPT-4o 的任何技术细节，唯一的线索就是来自他们内部模型炼丹师的一篇博客，项目名是 AudioLM，2023 年中启动，目标是用端到端的方式扩大语音模型的能力。

很明显 OpenAI 是有计划的抢先发布，因为 Google 在第二天的 I/O 2024 大会上准备宣布他们最新的研究项目 Project Astra，一个类似 GPT-4o 全模态模型，结果研究团队拿手机精心录制的与环境实时交互的视频，让 OpenAI 给提前一天全部展示了，而且功能更强大，完成度更高。

配图2.07: Google Project Astra 演示

OpenAI 会在几个月内陆续更新 ChatGPT 应用，通过 GPT-4o 让其具备 Assistant Agent 能力，一个能够像人类一样互动的“数字形态”全能助理；Google 也计划在今年内推出 Gemini Live 支持类似功能，我们可以把这种能沟通还能感知环境的 AI 称之为智能体（Intelligent Agent）。除了端到端的多模态之外，另一个重要的特点就是实时性，之前所有的交互都是回合对话式，包括 API 的调用；现在我们要从文字语音聊天升级到视频直播了，智能体保持一直在线。可以想像，用流媒体的形式来消耗 Token，这对算力的开销得有多大，所以大家必须保持模型能力不变的情况下缩小参数规模，升级架构来提升性能；最好让终端也参与进来分担一部分模型的计算量。

让科技变简单，是技术民主化最重要的一个趋势，没有人能抵挡住这种毫无机械感、完全类人化的交互方式。用这样的思路，可以设计从未有过的硬件产品，也能重新设计现有的产品，例如多年以前的 Google Glass 就可以因此而复活了；因为语音交互的流畅，智能体还能用手机之外的设备来实现视觉感知，那么手机的设计也会因此而进化，触摸交互更简单，在很多情况下，都只需要放在口袋里，给你的智能体提供本地算力。

这样的全模态智能体，将会成为我们和所有智能设备的新交互界面。进一步想象，家庭和办公环境的电子设备，只要联网就能成为智能体的感知器，或者直接成为他们的终端，被智能体控制；再结合具身智能（Embodied AI）技术，那就是现实版的 Ghost in the shell 了。

2.4 组织新形态

Inflection AI 的联合创始人 Mustafa Suleyman 在他去年九月份出版的新书《The Coming Wave》中提出了一个现代版的图灵测试，我们需要一个更适合现代 AI 能力水平的测试方法，这个方法不是能骗过人类就行，而是需要评测 AI 是否具备采取行动和取得成就的能力，以及它们能否对世界产生有意义的影响。

简单来说，要通过现代图灵测试，一个 AI 需要能完成这样的任务：“仅用十万美元的投资，在几个月内通过零售网络平台赚取一百万美元。” 为此，它不仅要制定策略和撰写文案，而且还需研究设计产品，与制造商和物流合作，谈判合同，并创立及管理市场营销活动。简单地说，它需要在极少的监督下完成一系列复杂的实际目标。虽然还是需要人类参与批准某些事情，例如开设银行账户，亲自签字，但所有实际操作都由 AI 来完成。

这里最大的技术挑战之一，就是让 AI 自己实现分层规划：将多个目标、子目标还有执行能力，组织成一个可以向着单一目标持续前进的流程；然后 AI 还需要可靠的记忆来辅助目标完成，能准确调用实时的数据，例如组件或物流等等。我们前面提到的 AutoGPT 就是这种 Agent 的原型，然后微软的 Copilot Studio，可以让企业设计内部数据处理与日常任务自动化的 Agent；当然这些离 Suleyman的现代版图灵测试还有很远的距离，但 OpenAI 预告过，他们的下一版本模型会极大提升推理和规划能力，也就是模型在内部实现 Agent 能力的自我增强，这是全自动化的关键，Sam Altman 经常挂在嘴边的 AGI 到来的定义之一就是 AI 能替代百分之七十的人类工作。

不久前，知名投资机构 Nfx 在他们最新的《The AI Workforce is Here: The Rise of a New Labor Market》中刚好分析了这个趋势。现在 AI 正在强制逆转 SaaS 这个缩写的含义，从“软件即服务”转变为“服务即软件”，软件既能组织任务，也能执行任务，你无需雇佣额外劳动力，它们是“内置”的，传统的劳动力市场最终将和软件融合成为一个新市场！

配图2.08：New AI Workforce（来自 NFX）

例如，我们现在购买 SaaS 销售工具，仍然需要雇佣并培训销售人员来完成实际的销售工作。在公司内部，招聘预算和软件预算不在一个数量级；在整个经济体中，劳动力市场和软件市场也是完全分开的。粗略地计算一下，美国企业在知识型劳动力上的支出超过 5 万亿美元；相比之下，公司在 SaaS 上的支出仅为 2300 亿美元。接下来，AI 要做的事情就是降低企业在知识工作者上的支出，让大家购买或者是租用能自己工作的 SaaS，从而提高在软件市场的支出。

现在，从企业组织的结构来看，提供这种 AI 劳动力的产品有两种形式：

配图2.09：Playbooks for AI workforce（来自 NFX）

AI 同事（雇佣）

在介绍智能代理那一小节中已经提到，现在控制着中小企业办公入口的 Google Workspace 与 Microsoft Office 都在推出自己的 Agents，我们只需要设定目标，这些 AI 的虚拟员工就能自动完成日常办公中繁杂的体力活；在办公助理之外，这些智能代理也会成为我们的自动化客服、销售、市场运营还有技术支持。例如 Nfx 投资的 Artisan，一家提供 AI 雇员的 Saas 服务，帮客户自动化市场与销售，AI 员工 Alice 与 Ava 每周能够预订 2-3 次潜在客户会议，在整个销售服务环节中每周七天，每天 24 小时不间断工作。

AI 供应商（外包）

想象一下，大部分企业都会使用外包服务，例如专业的客服外包、还有会计以及律师事务所等等，这些独立的服务供应商，他们很多虽然在使用 SaaS 但还是靠人力驱动。现在，新形态的 AI 公司将会是 AI 自动化管理的供应商，只需要少量的人类，可以支持更大规模的客户，例如 AI 客服中心 Smith AI，把不可规模化的服务型劳动力市场变成可以规模化的软件市场。

这里存在一个市场模式变化的机会，AI 劳动力概念的新型态软件，将吃掉传统 SaaS 的市场空间，让他们的利润减少，当然也会同时减少人类的工作机会，但给了 AI 初创企业新的市场机会，来挑战传统软件公司，这些初创的企业又能创造出不一样的新工作机会。当然，科技巨头不会坐以待毙， Google 最近计划有史以来最大规模的一次收购，用 300 亿美元买下 Hubspot，知名的市场营销与客户管理 SaaS，Google 期望这个收购能帮助自己快速触达更多客户，好在未来能销售更多的AI 同事给中小企业。在本章第一小节就提到了，对于 AI 应用的第二幕，竞争力就是你能控制的客户，以及端到端帮他们解决实际问题。

再往前看一步，这些 AI 劳动力都在承担着机械的自动化工作，软件还没法真正取代服务，它们得有适应人类社会的能力；它们必须看起来、感觉起来，就像是在与人互动；换句话说，软件在某些方面必须有灵魂，就像优秀的客服代理、销售代理或服务提供商一样。或许我们从 OpenAI 发布 GPT-4o 的最新演示中已经窥视到了未来，这才是软件和劳动市场真正融合的关键一步；虽然看上还长路漫漫，但我们正在步步的接近，具体会在第四章详细讨论。

配图2.10：智能代理将改变企业组织架构

智能时代，我们不能再用移动时代的模式来理解应用，本着人机交互方式越来越简单的趋势，智能应用最先应该从简洁开始，然后它们会从有形的界面中消失，变成真正无所不在的助理，或者是智能体，它们会辅助甚至直接帮我们完成任务；我们与 AI 协作的重点不再是过程，而是目标与结果，能完全自动化并融入人类社会就是 AI 劳动力的终极目标。

这些数字化的灵魂将无处不在，我们的个人助理，生活中的陪伴、工作中的同事还有我们的合作伙伴，这是一个听上去有些兴奋，但又让人略感不安，却注定会到来。

03 智变 - AI 加速的行业变革

“人类的智慧是宇宙中最宝贵的东西，但它却是稀缺的；若能借助机器智能来提高全世界的智力供应，无疑这将会是非常受欢迎的。” 互联网先驱 David Gelernter 在他 2010 年的那篇有先见之明的文章《Dream-logic, the internet and artificial thought》中这样写到。

从 Hinton 教授的观点衍生一下，既然生成式 AI 革命和电力革命一样或者更加重要，那么机器智能也会和电能一样成为一种通用的“能源”，可以普惠所有行业，“智能”这个词又有了新含义。电力革命花了六十多年的时间，让最高的行业渗透率到达了百分之九十；现在智能变革刚刚开始，我们可以把互联网的出现，看作是机器智能的序章的，为其诞生提供了海量的数据，基础模型将这些数据训练和压缩成了他们对人类世界的理解，在这之上，与人类协同推动世界继续往前。

我们需要做一次小小的思维转变，不应将这种机器智能视作与人类智能完全独立的事物，相反，我们应当将其看作是整体智能供应的一次提高。现在，人类在用模型与算力，构建完全超越互联网形态的信息网络，这将是全球智能体的互联，能够无死角的渗透到所有行业，加速自动化，降低成本，普惠世界。

3.1 廉价诱导需求

杰文斯悖论（Jevons Paradox），是经济学 William Stanley Jevons 首次在其 1856 年出版的《The Coal Question》一书中提出的现象，悖论陈述了当某样东西变得更高效时，人们会消费更多的这种东西。杰文斯观察到，当蒸汽机的效率提高时，使用更少的煤炭就可以做更多的事情，但实际上煤炭的消费量却增加了。人们并不只是用蒸汽机做之前同样的事情，因为成本更低，他们开始用蒸汽机做更多其它的事情。

现代经济学中有一个简单的定义：当商品、服务或资源的供应或容量增加导致其消费增加时，就会发生诱导需求（Induced demand）。经济学家 George Gilder 在《Knowledge and Power》中最核心的观点就是经济增长的主要动力就是企业家的创新，产生供给端需求，俗称创造不存在的市场。在这个科技通缩与数字丰盈的环境中，理解这一点十分重要，虽然它很反直觉。

增加对潜在需求的供应，例如智能的供应，人们就会更频繁地使用这些服务。此刻的问题是，智能太贵，训练模型太贵，但这不是一个会长期存在的问题。根据莱特定律（Wright Law），加速计算硬件的改进，每年会将 AI 相关计算单元（RCU）的生产成本降低 53%，而算法与模型的增强，可以每年会进一步降低 47% 的训练成本。换句话说，到 2030 年，硬件和软件的融合可以使AI 训练成本以每年 75% 的速度降低。

配图3.01：AI 训练成本每年下降 75%（来自 ARK Big Ideas 2024）

现在，智能的供应取决于两方面的成本：训练与推理，除非若干年后我们有了全新的训练推理一体的自进化模型架构。OpenAI 的推理成本似乎在以每年约 86% 的速度下降，比训练成本降的更快，最新模型 GPT-4o 和去年同等智能水平的 GPT-4 相比，速度提升了五倍，价格下降了接近十倍，这只是在一年之内。

我们现在使用搜索引擎的成本几乎为零，代价是需要看广告；等使用 GPT-4 或者更高水平智能的成本接近零的时候，这个由供应端免费而推动的需求，会让市场发生什么样的变化，大家可以想象；数以百万计的人和企业将拥有越来越聪明、能力越来越强的智能代理，而且每次模型的升级，都会让这些代理变得更强大，价格还会越来越便宜，这将是劳动力市场的巨变。

上一章中提到了现在知识工作中的支出是 5 万亿美元，根据世界银行的数据，2020 年全球 GDP总额是 84.7 万亿美元，同年全球劳动力占 GDP 的比重为 53.8%，这是一个 45 万亿美元的全球市场。如果把智能的触角延展到知识领域之外，需要和人类一样灵巧的机器，就能覆盖这个市场，过去它的瓶颈是智能，但现在我们的突破已经近在咫尺，如果 OpenAI 或者 Google 真的能够把智能免费提供，那唯一的限制就是能源了。

风险投资家 Packy McCormick 在他的文章《Tech is Going to Get Much Bigger》中阐明了这个观点：随着能源、智能和灵活性的成本趋近于零，整个经济将变得更大，结构上更加盈利。科技公司将有巨大的机会销售他们即插即用的劳动力和智能，本质上是将现在分散且不一致的人类劳动力产品化、集中化、按需化和作为服务给软件化，即 SaaS 化。智能的加入，让每个行业看起来都更像软件行业。它们增长更快，利润更高，研发投入更多。。。软件吞噬世界，AI 吞噬软件！

再往前推进一步，如果能源被解锁，我们可以从这篇《Energy Superabundance》中看到人类将如何利用几乎免费的廉价能源，例如飞行汽车、超高速列车、地球次轨道旅行、电动卡车运输网、垂直农业、空气凝结水、海水淡化等各种未来的愿景。我们不仅会使用廉价且丰富的能源来更便宜地做同样的事情，我们还会用它来做更多、更好、更快的事情。过去四十年，全球发达国家在能源消耗几乎没有增加的情况下实现了经济的缓慢增长，那是因为能源基础设施的建设几乎停滞，大家并不需要消耗那么多的电力；但现在因为智能的需求，让能源的需求激增，更加便宜的能源和智能又会诱导新的需求出现，从而再次加速经济增长，扩大整体的经济规模。

3.2 AI 浪潮的早期

在股市被发明之后，可以看到一个历史规律，以资本量最大的美股为例，每当一家公司问鼎全球市值第一的时候，就能代表这个公司所处的行业将引领未来十年以上的经济增长，它们最能代表一个大变革时代的到来，毕竟大家再用手里的钞票真金白银的押注未来。

配图3.02：1960 - 2023 年美股市值最大的公司

上世纪五十年代，AT&T 开启了通讯时代，然后是 IBM 把我们带入了信息时代，第一波浪潮是个人电脑革命，虽然 Apple 起了个早，但还是被 IBM-PC 雄霸天下；再往后面就是微软，开启了桌面软件时代，也同时开启了互联网时代，期间美孚石油会偶尔登顶，但那也是经济周期的影响，毕竟在 2000 年之后，美国的能源公司很少能进前十。信息时代的第二波浪潮始于 2010 年，Apple 成功的通过 iPhone 开启了移动互联网时代，也一举登顶全球市值第一的宝座。

配图3.03：行业周期切换图（来自 Coatue EMW/2023）

现在又进入了交替期，微软通过与 OpenAI 的深度绑定，在 2023 年再次问鼎第一，另外 Nvidia也因为算力需求的激增，业绩爆棚，在 2024 年六月的第一周市值达到有史以来最高的三万亿美元，仅次于微软排名第二。如果在未来几个月内，Nvidia 成为世界上市值最高的公司，那我们算正式开启智能时代了呢？还是进入炒作周期的顶峰了？这是个值得思考的问题

类比电力革命，从第一个灯泡被点亮到首座发电设施被发明出来，花了十年时间，然后又花了五十多年渗透到各行各业；这一轮 AI 革命的起点应该是 2012 年的 AlexNet，由神经网络驱动的人工智能再次回到历史舞台，差不多也是十年后，革命意义的 ChatGPT 诞生，完全证明了在有效的架构 Transformer 之上，叠加算力和数据就能出奇迹；这个组合就像发电站一样可以源源不断的输出智能，后面要做的事情就是扩大规模的同时降本增效，覆盖全行业。

配图3.04：我们还处于 AI 革命的早期

去年八月，Elon Musk 在首次对外演示 Tesla FSD12 的一次 Twitter Space 中，提到他对算力和能源的看法：“我们90%的数据中心都变成为算力中心，提供加速计算；人类很快会变成强计算依赖，未来80-90%的能源都会用在计算上”。再回头看看我们现在的基础设施之中，用于 AI 算力的占比有多少？大约 2%，Coatue 在今年初的一份 LP 报告中提到了这个数据。

现在正处于 AI 基础设施第二轮的升级浪潮之中：

AI 服务器的占比：9%
AI 在整个半导体行业的收入占比：10%
AI 数据中心电力消耗的占比（美国）：2+ %
AI 云计算收入的占比（Amazon & Microsoft）：～3%

从百分之九到百分之九十，AI 数据中心的升级才刚刚开始。因此，这次智能革命，会让芯片和数据中心业务最先受益，从 Nvidia 的股价就能看出；另外业务用量的提升，AI 云计算收入，其实主要是模型托管的收入，将成为云计算公司的主要收入。

配图3.05：AI 对电力消耗的预估

这里特别提到了能源， Coatue 预估按照现在的电力基础设施，到 2030 年全美国的电力供应将没法支撑 2500 万块数据中心 GPUs 的消耗，现在才 300 万块 GPUs；电力的产量提升并不如算力提升那么容易，Mark Zuckerberg 在最近一次与 Dwarkesh 的播客对谈中，特别吐槽了这一点，电力供应将成为 AI 发展的最大瓶颈！

科技公司这次肯定等不及传统能源企业的升级了，Sam Altman 几乎每次都会表达 AI 的瓶颈是能源供应，因此他投资了 Helion Energy，一个提供小型化核聚变装置的公司，他们已经和微软签订了合约，计划在 2028 年上线其首个核聚变发电厂，并在一年内达到 50 兆瓦的发电能力；谷歌投资了 TAE Technologies，就连 OpenAI 自己也投资了 Commonwealth Fusion Systems，这两家公司都专注于核聚变技术的商业化。

个人感觉，可控核聚变技术的难题很有可能因为 AI 对能源的强大需求而加速攻克，因为市场看到了超级廉价的能源，还能诱导出那么多以前没有过的需求；创造新的市场是企业家与科技创新的最大动力，这是政府引导的科研创新所不具备的。

3.3 从中心到边缘算力

2024 年三月月二十七日，诺贝尔经济学奖得主丹尼尔·卡尼曼（Daniel Kahneman）离世，他留给大家最经典的一本著作就是 2011 年出版的《思考，快与慢》，详细探讨了人类思维的两种模式：系统1（快思考）和系统2（慢思考）。

系统1是快速、直觉且无意识的思考模式。它依赖于直觉和情绪，能够迅速做出反应，几乎不需要耗费脑力。例如，判断两个物体的远近、察觉对方语气中的不友善、快速回答简单的数学问题例如 2 + 2 等；系统2则是较慢、需要主动控制且有意识的思考模式。它依赖逻辑和推理，处理复杂的问题时需要集中注意力和耗费脑力。例如，在大脑中计算复杂的数学问题（如157 x 641）、比较两款冰箱的效能、洽谈重要合同等。

Andrej Karpathy 拿卡尼曼的思考系统做了个很好的类比，当前的 LLMs 只是一个具备快速预测下一个单词能力的“系统1”思维；我们希望 LLMs 能够真正“思考”，通过长时间的思考产生更准确的回应，也就是深思熟虑。很多研究团队都在想办法让基于 Transformer 的 LLM 具备“系统2”思维，例如来自 Meta 的 S2A，但我们从更大的架构层面构思，部署在云端与边缘终端的模型，相互配合，也能实现这种可快可慢的思考方式。

配图3.06：云端与终端的对比（来自 Coatue LP Report 2024）

有一个明显的趋势，现在科技巨头和 AI 研究机构们推出自己新一代的模型，都按照参数规模区分了版本，例如 Anthropic 的 Claude 3 就拥有三个版本，最大规模的 Opus 价格最贵也最慢，适合做复杂的推理与自动化的任务计划，这是高级智能；其次是 Sonnet，价格速度适中，适合完成个人助理任务以及给定内容的快速分析，例如前面提到的自能体的任务；最快最便宜的是 Haiku，可以执行快速的翻译、客服对话等任务。

不过 Anthropic 和 OpenAI 的模型并没有开源的可以部署在边缘终端上的版本，他们的理由是安全问题；但考虑到自己的自能业务未来在终端上的拓展，Meta 有 Llama 3 7B、微软有 Phi-3 Vision、Google 有 Gemma，他们都是可以适配到移动终端上运行的开源 LLMs，就连最不动声色的 Apple 都偷偷发布了自己的 OpenELM，参数规模比微软的 Phi 还要小，这是为了在移动设备上节能运行优化的。

因此，我们能看到两种竞争：

边缘算力：拥有最多终端占有量和最好的边缘芯片的，将占据了竞争优势，例如 Apple，它的 A 系列和 M 系列芯片常年算力溢出，现在正好可以用这个作为条件让模型提供方来适应它的需求；紧随其后的就是 Google 还有高通，一个是移动终端的常年老二，另一个是移动芯片 Apple 之外的最大供应商；

另外，PC 级别的终端也因为智能的集成在复兴，微软主打 Copliot PC 的概念。这个级别上由于电力供应更加充足，可以用更快更耗能的芯片，我们应该可以看到未来会有家用和办公用的“智能体”终端诞生，可以把他们想象成带着屏幕的机器人；最后集成了 FSD 的 Tesla EV 也在这个量级之上，毕竟做视觉端到端控制的模型，为了敏捷与安全性，必须本地部署运行。

在边缘，拥有最佳使用场景的将胜出。

中心算力：科技巨头要发展终端算力，其一，是为了缓解云端的瓶颈，未来大多数的智能任务都是简单的能在终端直接完成的；其二，云端必须承担复杂的推理任务，这是个人、企业还有科研的高级智能需求；最后一个最重要的任务就是训练模型了。

Elon Musk 说接下来拥有 100 亿美元以上的算力投入的公司，才能进入 AI 研发的第一梯队，所以 xAI 就立刻宣布了计划用十万块 H100 连成一个巨大的集群，称之为 “Gigafactory of Compute”；不过截止到目前，根据 SemiAnalysis 透露的消息，Google 才是真正的 GPU Rich，他们自家的 TPU 加上 Nvidia 的 GPU，算力多到溢出，现在训练 Gemini 最新版的算力规模高达 ~1e26 FLOPS，比 OpenAI 用来训练 GPT-5 的要大四倍左右。所以 OpenAI 才要拉上微软，让他出资一千亿美金打造史上最豪华的算力中心 StarGate，算力能飙升到多少尚不清楚，但设计中 5G 瓦的电力需求，已经占到 2023 全美国数据中心能耗的 70% 了，看来投资核聚变势在必行。

在云端，拥有最多算力和最优数据的将胜出。

Apple 在最新的 WWDC 正式发布了 Apple Intelligence，其中架构上最有趣的部分就是 Apple’s On-Device and Server Foundation Models，边缘和远端混合的组合模型，用 Private Cloud Computing 技术端到端加密保证用户数据安全。在这个架构之下，每个 iCloud 用户都能够拥有属于自己独特的微调模型，做到基础模型跟着用户一起进化。Apple 正在用自己边缘都优势弥补大语言模型的后发劣势。

配图3.07 Apple Intelligence - Private Cloud Computing

AI 基础设施的军备竞赛已经在进行，但终端的竞赛才刚准备启动，而且要为用户提供流畅的智能体验，必须得两端同时进行；在这个快速进化的时期，给应用的开发提出了巨大的挑战。或许，智能时代根本就不存在应用开发，我们可以用各种硬件还有自然对话方式的交互形态，端到端的给客户解决问题就行，因为这是一次远超互联网和移动时代的新工业革命。

3.4 Nvidia 的新工业革命

知名播客 Acquired 在 2023 年十月对 Nvidia 的 CEO 做了一个信息量巨大的采访，那时 Nvidia 的市值刚刚突破一万亿美元大关，全球排名第六。

Jensen 提到为什么 Nvidia 如此专注的只做加速计算，有一个重要的原因是当他们看到 AlexNet 在计算机视觉中的惊人效果时，意识到这是一个突破性的技术。基于神经网络的深度学习模型能够在短时间内超越过去三十年的计算机视觉工作。他们发现深度学习实际上是一种泛化的函数逼近器（universal function approximator），因为其维度可以无限高。这意味深度学习可以解决各种复杂的问题，只要有足够的训练数据。

随着计算变得更便宜，AI 就可以进入更多的经济领域；如果它能被更广泛地采用，那么我们的市场应该变得更大，而且这个循环将继续下去。这里有一句话我保留 Jensen 的原文会更有感觉：“What’s unique about our current circumstance today is that we’re in the manufacturing of intelligence. We’re in the manufacturing of work world.” -我们在做制造业的工作，但我们生产的是智能！

作为一名 PC 硬核玩家，每一年的 Nvidia 的 GTC 都必须围观，从 2021 一直到今年的三月的这场，我看到了 Nvidia 最清晰的一次平台化布局的全貌，并且用了一个概念，用加速计算平台来支撑新的工业革命（NEW INDUSTRIAL REVOLUTION）。

配图3.08：A NEW INDUSTRIAL REVOLUTION

Jensen 给这次 AI 推动的工业革命预估了一个 100 万亿美金的市场规模，这已经接近去年全球的 GDP 总额了，看来想象力和诱导需求同样重要！那么 Nvidia 要如何拥抱呢？

提供算力平台：最新发布的 Blackwell GPU 已经是一个加速计算平台，通过 NVIDIA Quantum InfiniBand 能够连接数以万计的 GB200 超级芯片，组成一个超级大计算矩阵，可以把这个矩阵当成一块 GPU 来看待。亚马逊的 AWS 已经升级了其 Project Ceiba，计划通过 NVIDIA GB200 NVL72 扩展的新 Blackwell GPU，提供 65 exaflops 的惊人算力。

提供推理微服务 NIMs：这是在 CUDA 之上的 NeMo 微服务（Microservices），Nvidia 面向加速应用开发构建的计算容器推理，你的各种模型和智能计算应用，都可以在上面快速部署。就在五月中微软举办的 Build 2024 上，宣布了与 Nvidia 进行加速计算的全栈合作，除了 Blackwell 之外，还有 NIMs。

模拟与现实世界通吃：Omniverse 模拟现实的能力，除了驱动工业上的数字模拟设计之外，智能时代最大的作用就是合成高品质的训练数据了；配合 Issac Robotic 的服务提供机器人模拟训练，Nvidia 是计划把工业生产中能模拟的都模拟了，再用模拟的数据训练真实的自动化生产机器，从而让工业智能化，这是在很形象的智能工厂。

Nvidia 成功的扮演了智能淘金时代的卖铲人，做为全球唯一的 AI 训练算力供应商，现在要计划把自己的加速计算平台通过各大云计算服务商销售给企业，几乎所有企业的数字化以及工业制造中的智能供应，都绕不开 Jensen 的算力布局。

新工业革命就是智能驱动的传统工业升级与再造。过去，软件的归软件，硬件的归硬件，现在软硬逐渐一体，智能化会让硬件更灵巧，就像人类的智能是大脑与身体的整体组合一样；让设计生产完全通过 AI 模拟与加速，让智能体找到最适合的物理躯体，才能完全释放智变时代的生产力！

3.5 Agent 走进物理世界

在上一篇《机器之心的进化》中，还在把纯视觉方式的 FSD 当作自动驾驶领域值得探索的前沿方向在讨论，不到两年时间，全北美一百多万辆 Tesla 里面已经预装了最新的 FSD 12，就像在系统升级说明里面写到的：“我们移除了最后几万行人类写的 C++ 代码，把自动驾驶改成了完全由神经网络端到端控制”，也就是光子进入，行动输出，中间完全由神经网络黑箱操作，软件 2.0 的成功范本。

今年三月底升级到 FSD 12.3.3 之后，我现在大部分时间的驾驶都是让 AI 代劳的。第一趟体验就让我和之前的版本有了强烈的对比，头脑里的第一反应这就是自动驾驶的 ChatGPT 时刻，虽然还有许多小问题，但已经确立了纯视觉加上神经网络控制的可行性，接下来就和训练 LLMs 一样，靠算力和数据就能提升效果了。

让车在物理世界中自我行动，这是空间智能（Spatial Intelligence）的第一步。路透社报道，在计算机视觉上有过杰出成就的李飞飞教授，正在打造一家与“空间智能”有关的初创公司。她在 2024 年最新的 TED 演讲中解释了这个概念：“通过空间智能，AI 将理解真实世界，它们能够处理视觉数据，做出预测并根据这些预测采取行动”。

配图3.09：李飞飞 TED 演讲（With Spatial Intelligence, AI Will Understand the Real World）

当我们人类看到一个桌上的水杯，大脑就会自动计算它在三维空间中的位置，以及它与桌子和周围一切事物的关系，还会预测接下来会发生什么。行动的冲动是所有空间智能生命形式所固有的，它将感知与行动联系起来。一个具有空间智能的 AI，它也能自动做类似的预测与行动冲动。空间智能将推动 AI 系统获得具身智能（Embodied Intelligence），能够像生物一样与环境互动，FSD 就是典型的例子，现在 Tesla 正通过其改进版本来驱动 Optimus 机器人，Elon Musk 在 Tesla 最近一次财报电话会上说今年底就计划让 Optimus 能够在 Gigafactroy 代替人类干点活。

配图3.10：Tesla Optimus 的最新演示

不过 Nvidia 有一个更宏大的计划，这是今年 GTC 上的 One More Thing，他们计划推出 GR00T 项目，一个通用智能体（Foundation Agent）。其目标是为通用的人形机器人构建基础模型，使其能在不同实体之间迁移，训练过程类似 OpenAI 训练 GPT-4，通过在海量环境中训练来获得通用性，这里就要用到我们在上一小节中提及的 Isaac Sim 来创造 GPU 加速的虚拟世界。Nvidia 将通过它来以 1000 倍速运行物理模拟，生成无限复杂精细的虚拟世界，正所谓 AI 不用一天，人间就得一年。

这个项目的负责人 Jim Fang 在一次 TED 演讲上概括了通用智能体的三大特征：

能在开放世界中探索；
拥有海量世界知识；
能执行无数任务；

因此需要足够开放的环境、大规模预训练数据和强大的基础模型。就在不久前，Jim 在 X 上放出了一段演示，他们的团队在模拟环境中训练了一只机器狗，在瑜伽球上保持平衡和行走，然后将其转移到现实世界中，没有任何微调，行走的非常流畅。这个过程中团队用了 DrEureka，一个 LLM 代理，它能编写代码在模拟中训练机器人，弥补仿真到现实的差距，完全自动化了从新技能学习到现实世界部署的全流程。

配图3.11：模拟环境中训练了一只机器狗

在现实世界 AI 的另一端，Tesla 正计划使用两万个 Nvidia H100 GPU 进行 FSD 12 新版本的训练，自家的用于 Dojo 超级计算机的 D1 芯片台积电也开始量产。D1 由 5x5 阵列的高性能芯片组成，通过 TSMC 的 InFO_SoW 技术互联，通俗理解就是在一个单晶元上刻 25 个芯片，它们能像单一处理器一样高效工作。Tesla 会用这个组成新的 Dojo 加速计算阵列，能达到 100 exaFLOPS 的计算能力，将其用来训练未来的 FSD 和 FSD for Optimus。

Nvidia 和 Tesla 正在用各种不同的方式让 AI 进入物理世界，Nvidia 提供通用模型和模拟训练环境，让第三方来生产机器人；Tesla 则是从训练到制造全部自己来，这就像个人电脑时代的 IBM 兼容机和 Mac 一样，到底谁能胜出呢？拭目以待

配图3.12：Coatue 的人形机器人价值对比图

就像李飞飞在 TED 演讲中所描述的：“在那片原始海洋中，也就是我们的远古时代，眼睛的出现引发了寒武纪生命的大爆发。今天，这束光正在照进数字的心灵。空间智能使机器不仅能够相互交互，还能与人类以及真实或虚拟的三维世界进行交互。随着这个未来成为现实，它将对许多人的生活产生深远的影响。”

回应本章开头的结论，如果我们能够提升全世界的智能供应，那将普惠到所有行业，尤其是通过人工来进行生产与服务的行业。当智能让机器更加灵巧，能源的充沛让智能无限便宜的时候，我们复制原子的成本就会将接近复制比特的成本，在《数字重塑人生》一文中详细讨论了这个话题。

在智能时代，将劳动力支出转化为研发支出将改变公司的成本结构，虽然这需要更多的前期投资，但能降低生产和服务的边际成本。软件行业是这里的代表，它应该是法律许可的行业内，利润率最高的行业之一了。软件业的研发投入的平均比例为 17.7%，科研服务的投入略高一些，大约为 26.3%，这里包括了生物技术、纳米技术、先进材料和可再生能源等；但相比之下，制造业的占比为 5%，而金融和保险业仅为为 0.6%。如果这些行业的研发投入比能提高，那每个行业都会看起来更像软件行业，更快的增长，更高的利润和更多的研发。

然而，这里真正的大机会是：大部分经济可能看起来像 SaaS 模式，有更深的护城河、更高的转换成本、有意义的经济规模，甚至是网络效应。例如，还在萌芽期的 RoboTaxi 服务如果能够顺利启动和运行，它将具备上述所有的特点。

或许在不久的将来，我们只剩下生产智能的公司与生产机器人的公司，也或者是能够自动化完成特定任务的智能机器公司；所有的生产与服务，全部都由机器来完成。新的工业革命，也是大家熟悉的第四次工业革命，将是一次彻底升级人类劳动力的革命，无论你喜欢还是不喜欢，这个就是我们的未来。

04 演化 - 万物皆计算

“算力才是王道，知识都是干扰。” 加拿大计算机科学家与 DeepMind 的首席科学顾问里奇·萨顿（Rich Sutton）在他那篇著名的《苦涩的教训》（The Bitter Lesson - OpenAI 员工必读）中提到，在无穷的算力面前，人类的知识都只不过是一些小聪明而已。他从我们七十年的 AI 研究中得出了一个历史规律：

研究者总想构建一些知识并教给 AI；
这些知识在短期内让人感觉是有用的；
但是从长远看，人类构建的知识有个明显的天花板，它们的发展会被限制；
让 AI 自行搜索和学习的暴力破解法，最终确带来了突破性进展；

十多年前的 AlexNet 是最好的一次证明，它抛弃了人类的知识逻辑，例如在图片中寻找边缘，或是通用形状，还有通过 SIFT 特征来理解，只用卷积神经网络和某些类型的不变性的概念，就大幅领先了一同参赛的程序。

4.1 模型如何理解

我们能从萨顿教授《苦涩的教训》中领悟到什么呢？第一个就是通用方法的巨大力量，那些随着算力的增长可以持续扩展的方法，就是搜索和学习，类比到神经网络就是推理和训练，它们能随着算力的增长而近乎无尽的扩张。

第二个就是我们无法用简单的方法来概括现实和心智的复杂，我们无法用符号的逻辑来穷尽这种复杂；相反，我们应该只内建能够找到并捕获这些复杂性的元方法。这些方法的关键是它们能找到好的近似，但寻找这种好的近似应由我们的系统进行，而不是我们自己。

哲学家维特根斯坦（Johann Wittgenstein）很早就表达了对这种近似性的思考：按学科分类做“知识图谱”的方法根本不可能穷尽所有的知识，事物之间总有些相似性是模糊的、不明确的、难以用语言来形容的。

神经网络的成功，让连接主义全面逆袭，这种好的近似就是向量，包括在自然语言处理领域。大家相信，符号进入大脑后会转化为大型向量，所有内部处理都通过这些大型向量完成。如果你想生成输出，就需要再次生成符号。大约在 2014 年，机器翻译领域经历过这样一个阶段，使用循环神经网络在隐藏状态中不断积累信息，最终在句尾得到一个大的隐藏向量，这个向量捕捉了句子的意义，然后可以用来在另一种语言中生成句子。Hinton 教授称为这个为思想向量，他在最近接受 AI 知识管理软件 Sana 的 CEO Joel Hellermark 的一段精彩的采访中这样比喻。

谷歌研究员 Fernando Pereira 这样说过：“自然语言是人类唯一的符号语言，我们用它进行推理。” Hinton 认为大语言模型和人类大脑做着同样的事情，这就是所谓的“理解”。它认为语言和思维过程中确实涉及符号，但这些符号通过多层次的嵌入表示（embedding representation）被丰富化了。然而，这些嵌入仍然与符号相关联，每个符号都有一个大的向量，这些向量相互作用，从而产生下一个词的符号向量。

“理解”就是知道如何将这些符号转换成向量，以及这些向量的元素应该如何相互作用来预测下一个符号的向量。知识体现在你使用的向量及其元素之间的相互作用上，而不是符号规则。这并不意味着可以完全摆脱符号，而是将符号转化为庞大的向量，同时仍然保留符号的表层结构。这就是如今模型的工作原理，也是更合理的人类思维模型。

Anthropic 最近做了一个关于模型可解释性的研究 - “Mapping the Mind of a Large Language Model”。他们从 Claude 3 Sonnet 的中间层提取了数百万的特征，给模型运行时的内部状态来了个快照，并给处于激活模式的特征神经元做了个“距离”测量，这样能够寻找彼此“接近”的特征。在“金门大桥”附近，发现了恶魔岛、吉拉德利广场、金州勇士队、加州州长加文·纽森、1906 年地震和旧金山阿尔弗雷德·希区柯克电影《眩晕》，这些特征还是多模态和多语言的。

配图4.01：Golden Gate Bridge Features

这表明，AI 模型中概念的内部组织，在某种程度上符合人类的相似性概念，而且还有更高层次的概念抽象，这也许是 Claude 拥有出色的类比和隐喻能力的原因。用另一个角度来理解，概念作用的权重构成了模型的知识！

4.2 经验重塑语言

仅基于文本来学习的限制是什么？它高效吗？为什么模型要这种方式学习，而我们人类却不是？卡内基梅隆大学有一个计算机科学研究小组 CLAW，主要研究如何与机器交流，以前叫 NLP 现在都是 LLM。他们假设感知、具像化和语言不能相互独立存在，因为经验塑造语言。

在《Experience Grounds Language》这篇研究报告中，团队使用了一个语料的世界范围（World Scope）概念，后面简称 WS。现在的大语言模型仅在文本的语料库上训练，就获得了巨大成功，如果能在更大的物理和社会环境中的并行训练，就能解答更深层的问题。因此，WS 按照训练数据获取的范围，被分成了五个级别：