AI新态势：智谱首席科学家唐杰最新观点的深层含义|上下文|人工智能|唐廷枢|唐杰|智能体|顶尖科学家协会奖

AI行当在发生一些根本性变化，我们做些概括。

简单说：

2023：

AI Copilot
AI Assistant
AI Chatbot

2024：

Workflow
Multi-agent
Tool use

2025-2026：

Long-horizon agents
Autonomous systems
Self-improving systems
AI-native organizations
AI operating systems

也就是说：

行业重心已经从：

“AI 帮你”

变成：

“AI 自己完成”

和这个直接相关的是一系列发言和融资事件。感兴趣同学欢迎关注下面这场直播。

下面是智谱首席科学家唐杰老师的观点。

近期思考：转向长程任务（Long-Horizon Tasks）

今年最可能的突破将发生在长程任务领域。我们正步入这样一个阶段：大语言模型（LLM）通过与智能体（Agent）环境交互，学习如何完成漫长且复杂的任务。这或许才是 LLM 真正价值所在。以网络安全为例：想象一个能够持续搜寻软件漏洞和 Bug 的模型。这听起来像是一个搜索过程，但本质上是模型在学习专业黑客的高级直觉和方法论。与人类不同，AI 可以 24/7 不眠不休地工作。它可能以极高的频率发现漏洞，并在 HackerOne 或 BugCrowd 等平台上领取赏金。这听起来很有趣，但从根本上说，这是一场取代黑客的革命。如果连黑客都在被“颠覆”，那么普通程序员受到的冲击可想而知。

从“一人公司”到“无人公司”

基于长程任务处理能力，自主智能体系统（AAS）将不可避免地成为下一个前沿阵地。去年我们还在讨论“一人公司”（OPC）的兴起，没想到这么快就向“无人公司”（NPC）演进。这是一个讽刺的转折——在这个新的生态系统中，我们最终可能都成了 NPC（非玩家角色）。

攻克不可能：记忆与学习

要实现上述愿景，必须解决三大技术支柱：记忆（Memory）、持续学习（Continual Learning）和自我评判（Self-Judging）。我曾认为这些需要巨大的范式转移和多年的研究，但由于技术和应用端的双重压力如此巨大，我们正看到这些能力通过天才般的工程“奇招”不断涌现：

记忆：超长上下文窗口（100万+）和 RAG（检索增强生成）已显著弥补了这一差距。
持续学习：虽然真正的持续学习依然困难，但发布周期正在缩短。全球领先模型每月更新，国产模型也在紧追。如果明年能达到每周更新，在效果上就等同于持续学习。
自我评判：这依然是最难捉摸的，但像 Opus 4.7 这样的模型已经展现出了早期的自我纠错和判断能力。

自我演化的终局

最艰难也最光明的路径是自我演化（Self-Evolution）。当前的浪潮异常凶猛。我怀疑像 Claude 这样的模型可能已经实现了自我训练的基础：编写自己的代码、清洗自己的数据、生成合成数据并以此进行训练。这可能会“浪费”一些算力，但它节省了最宝贵的资源：人力和时间。在 LLM 时代，速度就是一切。快速迭代正是领先者与跟随者之间产生认知鸿沟的原因。传闻中 Claude 明年投入的 200 万片芯片集群，很可能就是专门用于这种自主的模型自我训练。

技术总结：

100万上下文：必要的基准线。
记忆与持续学习：前提条件，可能通过“工程奇招”先行解决。
利用环境（Harnessing Environments）：突破点。
自我评判：临界点。
全自动化自我训练：终局。

重新定义 AGI 与行业

如果这是通往 AGI（通用人工智能）之路，那么 AGI 的定义应当是人类集体智慧的总和，而非仅仅是单个人的智能。它必须具备创造力，能产出像“相对论”那样深奥的成果——正如 Hassabis 设定的标准。在这一转型期，每个 APP 都需要重构为 AI 原生，甚至我们可能会彻底跨越 APP 的概念。最重大的挑战将是操作系统本身的重构。未来，你看到的不会是传统的桌面，而是一个LLM OS，应用程序将根据需求“即时生成”。这对拥有 80 年历史的冯·诺依曼架构发起了挑战，代表了计算机科学行业的彻底颠覆。

不可逆转的浪潮

从完成长程任务到全自主运行，每个行业——安全、金融、法律、电商——都将被重塑。最近有很多朋友联系我，询问如何让企业转型以跟上 AI 步伐。但很少有人真正意识到，这个不可逆转的过程已经开始。随着这股巨大的技术浪潮袭来，我们必须做好行动准备，但也必须开始严肃思考如何对其进行监管。

很巧合的是最近各位AI行业的重磅人物其实在用不同的词表达类似的观点：

Hassabis 最近不断强调：

未来真正重要的能力是：