2026 年伊始,DeepLearning.AI 创始人、斯坦福大学兼职教授吴恩达(Andrew Ng)在其年度通讯《The Batch》新年特刊中抛出了一个尖锐的问题:“2026 年会是我们最终实现 AGI 的一年吗?”这个问题本身或许并不新鲜,但吴恩达提出了一个新的测试框架,试图用一种更可靠的方式来回答这个问题。
吴恩达将这个测试命名为“Turing-AGI Test”(图灵 - AGI 测试)。测试的设计思路是这样的:让测试对象,无论是 AI 系统还是人类专业人士,坐在一台可以联网、装有浏览器和 Zoom 等常用软件的电脑前。裁判会设计一个持续数天的工作体验,比如先培训测试对象成为一名客服人员,然后让他接听真实的客户来电,期间提供持续的反馈。如果 AI 能够像一位熟练的人类员工那样完成这些工作任务,它就通过了测试。
这个测试的关键词是“工作”。吴恩达在公开信中写道,大多数普通人理解的 AGI,意味着计算机能够像人一样聪明,能够完成大部分甚至全部的知识工作。这个定义听起来理所当然,但问题在于,当一些公司宣称自己即将实现 AGI 时,他们所设定的标准往往低得多。
定义上的错位造成了认知上的混乱,这种混乱正在产生真实的负面影响。吴恩达观察到,有高中生因为相信 AGI 即将到来而放弃了某些学科的学习,有 CEO 在做投资决策时假设 AI 在一两年内就会变得比实际可能的更强大。这些都是过度炒作带来的后果。
吴恩达指出了传统图灵测试的局限性。那个经典测试要求计算机通过文字聊天让人类裁判无法分辨它是机器还是人。Loebner 奖的历史表明,模拟人类打字错误这种与智能无关的技巧,有时比真正展示智能更容易让裁判上当。而今天 AI 发展的主要目标是构建能够完成经济上有价值的工作的系统,而不是愚弄裁判。因此,一个测量工作能力的测试比测量欺骗能力的测试更有意义。
另一个问题是,当前几乎所有的 AI 基准测试,比如 GPQA、AIME、SWE-bench 等,都有预先确定的测试集。这意味着 AI 团队最终会或直接或间接地针对已公开的测试集调优模型。
任何固定的测试集都只能测量智能的一个狭窄切片。而在图灵测试中,裁判可以自由提问来探测模型的能力边界。同样,在 Turing-AGI 测试中,裁判可以设计任何工作体验,而且不会提前向被测试的 AI 透露测试内容。这是比固定测试集更好的衡量 AI 通用性的方式。
吴恩达的担忧有其现实基础。过去几十年里,过度炒作的预期曾经导致过“AI 寒冬”。当人们对 AI 能力感到失望时,兴趣和投资就会大幅减少。
而当前 AI 正处于一个惊人的进步轨道上,但不切实际的炒作可能创造一个投资泡沫,一旦泡沫破裂,失望情绪可能会再次导致兴趣的崩溃。
吴恩达认为,如果举办一个 Turing-AGI 测试竞赛,而所有 AI 系统都未能通过,这实际上是件好事。这将有助于消解 AGI 炒作、降低泡沫风险,从而为 AI 的持续投资创造更可靠的路径。而如果真的有公司通过了这个测试,那就意味着他们创造的不仅仅是一个营销噱头,而是真正具有巨大价值的东西。
这番论述的背景是,2025 年 AI 泡沫的讨论已经达到了前所未有的热度。据 Crunchbase 数据,2025 年 AI 领域共获得了 2023 亿美元的投资,比 2024 年的 1,140 亿美元增长了 75%。高盛研究报告显示,2026 年 AI 资本支出预计将从 4,650 亿美元上调至 5,270 亿美元。
与此同时,MIT Media Lab 旗下的一份研究报告在 2025 年 8 月指出,尽管企业在生成式 AI 上投入了 300-400 亿美元,但 95% 的组织“零回报”。OpenAI 的 CEO 山姆·奥特曼在 2025 年的一次媒体晚宴上也承认,他认为投资者整体上对 AI 过度兴奋了。
NBC 新闻在 2025 年底对吴恩达的采访中,他表达了一种谨慎但乐观的立场:AI 确实很神奇,但它也有很大的局限性。他认为 AGI 还是一个遥远的可能性,他同时强调 Agentic AI 的商业价值将持续快速增长,尽管炒作的走向难以预测。
在这封年度公开信中,吴恩达还邀请了六位在各自领域具有影响力的研究者和从业者分享他们对 2026 年的期望。这些观点涵盖了开源生态、科学发现、教育变革、从预测到行动的转变、生物医学多模态模型,以及构建社区的 ChatBot。
IBM 研究院 AI 模型副总裁大卫・考克斯(David Cox)的期望是开源 AI 能够最终获胜。他将当前的局面与 1990 年代 Linux 挑战微软的历史相类比,认为某些玩家正在试图拥有和控制 AI,做法与当年微软向发展中市场倾销免费 Windows 如出一辙。
OpenAI 和 Meta 都发布了所谓“开放”的模型,但不披露训练数据集,还对使用者能够获得的收入设置上限。这些都是为了防止竞争者获得吸引力。
考克斯认为真正开放的 AI 意味着它不被任何人拥有,不只代表一家公司的价值观。他还提到地缘政治因素:国家之间互不信任,而模型很容易被有问题的数据投毒,真正的开放开发可以解决这个问题。IBM 在斯坦福透明度指数上排名第一,得分 95%。考克斯用一种自嘲式的幽默结束:IBM 以无聊著称,但无聊意味着稳定。让 AI 在 2026 年变得更开放、更怪异,也许还有一点更无聊吧。
普林斯顿大学 Vertaix 研究实验室创始人阿吉・布索・迪恩(Adji Bousso Dieng)希望 AI 能够从效率工具转变为科学发现的催化剂。她指出,过去十年深度学习的主导范式是“插值”,模型擅长模仿训练数据的分布,但在最罕见的样本上表现不佳。
物理科学中的许多重大挑战,从设计全新蛋白质到发现能够捕获二氧化碳的新型金属有机框架等问题无法被表述为监督学习问题,而应该被视为发现问题,其所寻找的东西恰恰是稀有的。
在这些场景中,分布的主导模式往往在科学上不那么有趣,因为它们代表的是我们已经知道的东西。迪恩认为,我们需要将多样性提升为一等目标,而不仅仅是将其视为次要的评估指标。如果我们实现这种转变,AI 将不再仅仅是人类知识的模仿者,而会成为扩展知识的真正伙伴。
微软首席数据科学家胡安・M・拉维斯塔・费雷斯(Juan M. Lavista Ferres)聚焦于教育。ChatGPT 发布三年多后,教育界仍在与这项技术的影响搏斗。他指出,AI 检测器在实验室里表现良好,但它们的这种表现假设学生会提交原始的模型输出,可他们并不会。一旦有了检测器,学生就有动机去规避它,而规避并不困难。
这是一个结构性问题:如果你能构建一个检测 AI 生成文本的系统,那你就可以用这个系统来训练一个击败它的系统。检测可能会惩罚错误的人(尤其是非英语母语者),同时未能阻止最复杂的规避。他建议教育者使用现场考试、口头答辩等真实的理解展示方式,并假设学生会使用 AI 工具来设计作业。精灵已经从瓶子里出来了,没有办法把它放回去。
艾伦人工智能研究所高级研究科学家谭梅・古普塔(Tanmay Gupta)认为,2026 年 AI 研究应该正视一个核心认识:预测的模型与行动的系统是不同的,后者才是我们真正需要的。世界上有经济意义的任务不会在单个预测结束,它们需要在复杂、动态的环境中采取一系列行动。
考虑一下编程是如何演变的:模型曾经只是自动补全代码行,但现代编程 Agent 越来越多地接受高级规范、搜索代码库、运行测试,并以最少的人工干预返回工作解决方案。古普塔希望能将这种演变带到其他领域。
这些目标导向的 AI 系统需要的不仅仅是预测能力,还需要持久记忆、长时间专注于目标的能力、对实时反馈的响应,以及在不断变化的环境中应对不确定性的能力。处理未明确、定义不清、未发现和未想象的任务是下一个前沿。
加州大学圣地亚哥分校副教授 Pengtao Xie 的期望围绕生物医学领域的多模态模型。在过去几年里,联合推理文本、图像、序列的模型取得了快速进展,但在生物医学环境中,这些能力往往仍然是碎片化的、脆弱的或难以解释的。
他强调,生物系统本质上是多尺度和多视角的,基础模型应该实现深度的多模态整合,而不是模态的表面拼接。另一个关键焦点是可解释性:在生物医学中,仅有预测是远远不够的,研究人员和临床医生需要理解模型为什么做出某个决定、它依赖什么证据。2026 年的进展不仅应该通过基准测试来衡量,还应该通过整合到生物医学工作流程中来衡量。
AMD 企业副总裁莎朗・周(Sharon Zhou)则希望看到 AI 打破与每个人的一对一关系,将人们聚集在一起而不是孤立他们。今天的互联网正在被推向两个极端,一端是严重的 AI“垃圾化”,一边是拼命想把 LLM 挡在门外的人工策展。但这种张力可以是整合性的:AI 可以被设计成连接人们、加强人际联系的工具。
想象一下,当你在凌晨三点和 LLM 谈论一个人际关系问题时,它问你是否想和另一个有同样感受的人聊聊,然后加入你们的对话,用有趣的问题让交流活跃起来,直到你意识到你交了几个朋友,修复了你的 bug,还获得了处理人际关系的新视角。好奇心在被分享时会加速,它是有传染性的。要是AI从一开始就被设计成撮合人的角色,人和 AI 都能从中受益。
吴恩达在公开信的最后写道:新年快乐,祝大家在新的一年里有一个美好的建设之旅。而“建设”这个词或许正应当是今年 AI 发展的主线。在炒作与泡沫的喧嚣中,真正重要的是那些正在默默建设的人,以及他们建设出来的、能够真正完成工作的东西。
参考资料:
https://www.deeplearning.ai/the-batch/issue-334/
运营/排版:何晨龙
热门跟贴