《麻省理工科技评论》年度AI洞察：10个关键词理解正发生的AI趋势|ai洞察|人工智能|智能体|机器人|真实场景|知名企业|算法|谷歌|麻省理工科技评论

在嘈杂喧嚣的 AI 世界里，什么才是真正值得关注的？《麻省理工科技评论》的记者和编辑花了多年时间思考这个问题，追踪 AI 的进展，描绘下一步走向。现在，我们第一次把答案浓缩成了一份清单。

受我们每年评选的“十大突破性技术”启发，这是一份全新的盘点：那些正在推动进步或改变权力格局的 AI 大趋势、大方向和新突破——它们定义着今天，也将塑造明天的可能性。

人形机器人数据

Humanoid Data

就像我们说的话和写的字变成了大语言模型的训练数据一样，人类运动的视频如今也在被大规模收集，用来训练人形机器人。

这股风潮始于一个简单的类比：ChatGPT 靠海量文本学会了生成语言，那人形机器人能不能靠海量运动数据学会在真实世界里干活？问题在于，描述人类运动方式的数据集远不像互联网文本那样现成。虚拟仿真曾经是替代方案，但仿真永远无法完美还原真实世界的物理特性，训练出来的机器人一到现实中就容易摔跤。

于是企业决定走笨办法：直接收集真实世界的数据。世界各地出现了大型训练中心，工人穿着外骨骼一天擦几百次桌子；尼日利亚和印度的零工把手机绑在头上，在家拍自己做家务；美国的快递公司给员工装上传感器记录搬箱子的动作，一边研究工伤，一边为未来可能取代他们的机器人积累训练数据。

2025 年，仅人形机器人领域就吸引了 61 亿美元投资。但一段我打开微波炉的视频到底值多少钱？要多少个这样的片段才能教会一个机器人做晚饭？没有人知道这条路能不能走通。

更强大的大语言模型

LLMs+

ChatGPT 之后，下一个大事件是什么？答案可能让人意外：还是大语言模型——只不过更强、更高效、更能独立干活。

当前 LLM 的核心瓶颈在于：它们擅长回答一个问题，但让它们连续工作几天、独立攻克一个复杂的多步骤任务，就很容易跑偏或遗忘。要从“聊天助手”进化成“AI 劳动力”，LLM 需要在三个方向上突破。

第一是效率。混合专家模型（MoE）把一个大模型拆成多个小模块，每次只启动需要的那部分，大幅降低算力消耗。扩散模型和 DeepSeek 提出的“文本转图像编码”等实验性方案也在探索更便宜的计算路径。

第二是工作记忆。两年前 LLM 一次只能处理几十页文本，现在最新模型的上下文窗口已经扩展到了 100 万个 token，相当于一整摞书。但窗口越大，模型越容易在长任务中迷路。MIT CSAIL 提出的“递归 LLM”提供了一种新思路：把输入拆成小块分发给自己的多个副本，各自处理再汇总，在长任务上的可靠性远高于传统方案。

第三是成本。部署 LLM 的费用正在急速下降，一些模型的服务成本按年化计算已经降了几百倍。

LLM 没有过时，它正在脱胎换骨。

AI 诈骗

Supercharged Scams

ChatGPT 让所有人看到了生成式 AI 的威力，犯罪分子也不例外。自 2022 年以来，网络犯罪者迅速把 AI 工具整合进了自己的作业流程：用 LLM 写钓鱼邮件、用深伪技术制作以假乱真的视频、用 AI 自动扫描系统漏洞、让恶意软件变得更难检测……AI 没有从根本上改变黑客攻击的本质，但它大幅降低了入行门槛，让攻击变得更快、更便宜、更容易规模化。

这种趋势已经在全球显现。国际刑警组织警告说，东南亚的诈骗中心正在用廉价 AI 工具提速扩量；阿联酋声称挫败了一系列由 AI 辅助的攻击；Anthropic 则透露，其正在测试的模型 Mythos 在所有主流操作系统和浏览器中都发现了严重漏洞，公司因此推迟了模型发布，并联合多家科技公司成立了名为 Project Glasswing 的防御联盟。

攻击在变强，防御也在跟进。仅微软一家，每天就要用 AI 系统处理超过 100 万亿个可疑信号，一年内拦截了价值 40 亿美元的诈骗和欺诈交易。让攻击成为可能的同一种技术，也可能是未来防御的最大依仗。

眼下，基本的安全措施仍然能挡住大部分粗糙的 AI 辅助攻击。但随着公开可用的生成式 AI 能力不断增强，未来面对更精密的攻击时我们能否守住，还远没有答案。

世界模型

World Models

AI 在数字世界里已经很厉害了，但物理世界仍然是人类的地盘。写小说、写代码远比叠衣服、上街导航容易得多。许多研究者认为，要跨过这道坎，需要一种叫做“世界模型”的技术。

世界模型的核心理念是：让 AI 像人类一样在脑子里构建一个外部世界的模型，用它来预测行动的后果，再据此做决定。你知道把杯子推下桌子会摔碎，是因为你的大脑里有一个够用的物理模型。AI 目前还没有这个东西。LLM 看似能回答“杯子推下桌会怎样”，但研究表明这种“理解”很脆弱，稍微换个条件就彻底失灵。

这个方向最近突然热了起来。谷歌 DeepMind 和斯坦福教授李飞飞创办的 World Labs 都在积极推进，杨立昆从 Meta 离职创办了专注世界模型的初创公司，OpenAI 也把关闭 Sora 视频应用后释放的资源转投到了“长期世界模拟研究”上。

目前的应用还比较初级。谷歌 DeepMind 和 World Labs 在做的事情是根据文本、图像或视频生成可交互的 3D 虚拟环境，可以用在游戏设计和 VR 体验中。《宝可梦 Go》的开发商则在用玩家收集的数十亿张图片构建世界模型的雏形，目标是引导配送机器人。

真正的突破可能要等到世界模型被整合进灵活的智能体，既能理解环境，又能预判后果，还能自己做决定。到那一步，机器人才有可能真正走进物理世界。

战争中的 AI 指挥

The New War Room

把伊朗冲突称为第一场“AI 战争”并不准确。从阿富汗到乌克兰再到以色列，算法帮军方做分析、识别目标已经有好多年了。真正新的东西是：指挥官们开始向基于大语言模型的对话式 AI 寻求行动建议，而不只是让它帮忙分析情报。

过去十年，Maven 等 AI 系统干的是初级分析师的活，从海量监控画面和卫星图像中挑出有价值的信号。现在大语言模型让这些系统变得更具交互性：军方人员可以把一份潜在目标清单丢给聊天机器人，让它建议先打哪一个。Anthropic 的 Claude 已经深度嵌入美军作战流程，以至于五角大楼说要花六个月才能替换掉它。

问题是显而易见的。用过生成式 AI 的人都知道，同一个提示词每次跑出来的结果不一样，建议未必准确。正常情况下用户应该逐条核查，但在“五分钟内决定打哪个目标”的压力下，核查很可能被省略。军事专家还警告说，指挥官可能过度信赖 AI 把复杂战场压缩成一块整洁仪表盘后呈现的画面，而科技公司也可能借此对军方决策产生不当影响。

与此同时，五角大楼正计划让 AI 公司用机密军事数据训练新模型，这将带来全新的安全风险，也让硅谷与五角大楼的距离前所未有地近。

算法自动化军事中的苦差事已经有很长一段时间了，但现在生成式 AI 在作战室里有了自己的席位，指挥官们开始认真对待它的建议。它正在重塑军方共享情报、与大型科技公司合作以及做出致命决策的方式。

被武器化的“深度伪造”

Weaponized Deepfake

随着生成式 AI 的进步和工具的普及，伪造图像、视频与音频的门槛大幅降低，普通人也能制造高度逼真的虚假内容。这些内容已被广泛用于色情制作、诈骗和政治操控，不仅伤害个体，也在更深层次侵蚀社会信任。

其中，女性与边缘群体承受的影响尤为严重，大量深度伪造内容带有性剥削性质。与此同时，政治领域的滥用也在加剧，一些 AI 生成的图像和视频被用于影响公众认知，甚至误导选民。

尽管业界提出了技术防护、用户自我保护和立法监管等解决方案，但都存在明显局限：技术可以被绕过，行为难以改变，监管执行也充满不确定性。随着美国中期选举临近，而相关监管与研究力量却在削弱，深度伪造可能进一步加剧信息混乱。

当真假难辨成为常态，人们失去的或许不只是判断力，而是对现实本身的信任。

多智能体协作

Agent Orchestration

当前，生成式智能体（Generative Agent）正在摆脱只能“聊天”的功能边界，走向任务的自主执行。在此基础上，多智能体系统通过角色分工与动态调度，可协同完成编程、调研、流程管理等复杂任务，让个体工作者具备团队级产出能力。从代码协作到科研辅助，这类工具试图将知识工作模块化、流水线化，重构白领岗位的价值链条。

效率提升的背后是控制力的让渡。当智能体开始操作真实系统、调用敏感数据，模型幻觉、目标错位或提示词注入都可能引发难以追溯的连锁错误。而当前评估标准、审计机制与应急方案普遍缺位，技术落地跑在了安全基建前面。

更深层的拷问在于：当我们习惯将决策链条交给自主代理，人类是变得更高效，还是逐渐丧失对过程的理解与干预能力？信任不该是黑箱的副产品，而需建立在可解释、可回退、可问责的基础之上。

中国的开源押注

China’s Open-source Bet

中国 AI 实验室正以“开源”为杠杆，影响全球的开发者生态。不同于硅谷将核心模型封装收费，DeepSeek、阿里巴巴的千问、月之暗面的 Kimi 等机构选择直接释放模型权重，允许任何人下载、微调、本地部署。这一策略迅速赢得预算有限、追求灵活性的开发者青睐。去年中国开源模型下载量首次超越美国，阿里系模型的社区衍生版本数量已超过谷歌与 Meta 之和。

开源对于中国来说不仅是技术共享，更是地缘博弈下的务实路径：在高端芯片受限的背景下，借助全球开发者的反馈与贡献，反而能加速模型迭代。

当然，开放也伴随着压力。关于模型内容合规约束、能力蒸馏争议依然存在。但当越来越多产品建立在中国开源底座之上，AI 技术的权力结构已悄然重构：多极化不是预测，而是正在发生的现实。