三位学者共话智能的真假、突破与本质。
AI在变得越来越聪明,我们也感受到日益显著的“真假交织”现象。
“借假修真”——是说我们身处一个技术未收敛、趋势未定型、场景未定式、产品半成品的阶段,许多热闹甚至是虚妄的——我们还在混沌中试错;
“去伪存真”——即便还有非常多难题没有攻克,但我们已经开始厘清什么是真突破,什么是真价值——我们已经有了相对清晰的思路,正逼近某种真实的智能法门。
这是今年所有AI从业者最真实的处境:真突破和假繁荣并存;真能力与假想象并存;真机会与假故事并存——一边向前走,一边又要反思我们为什么走,走到哪,还将去哪。
“真”与“假”并非对立,而是智能演化链条上的不同阶段:一端是更接近真实能力的认知结构,一端是以近似与拟态推动前进的探索性形态。
在12月3日举办的“轰然成势,万象归一”2025甲子引力年终盛典的巅峰对话环节,甲子光年创始人&CEO张一甲开启了一场讨论——《AI这一年:借假修真还是去伪存真?》,她对话的嘉宾是:
清华大学电子工程系教授、系主任,国家自然科学基金杰青、IEEE Fellow,无问芯穹发起人 汪玉
北京大学北京国际数学研究中心博雅特聘教授、北京中关村学院常务副院长 董彬
北京智源人工智能研究院院长 王仲远
这一次,我们想和这个AI行业中的学者聊聊“AI的真与假”以及“智能的突破与本质”。
以下为本场巅峰对话的文字实录,经「甲子光年」编辑,在不改变原意的基础上略有删改。
1.谈技术突破:强化学习、推理、智能体、多模态
张一甲:你心目中,今年AI领域最重要的一件事是什么?
汪玉:今年最关注的是强化学习和智能体。
董彬:我主要研究领域是数学,最关心的还是人工智能推理,所以我把我自己的主要精力都放在了AI for Mathematic(人工智能赋能数学研究)。我个人希望看到人工智能在数学最前沿探索,尽快帮助到数学家。
王仲远:今年最关注的是多模态世界模型。
张一甲:三位老师兼具学术和产业的视角,想问大家一个直接的问题,今年如果只看“智能本身”,你认为最关键的突破是什么?
汪玉:印象最深的还是DeepSeek,我有两方面的感受:一个是用强化学习的方式,可以使智能能力得到进一步提升;另一个是面向目前最好水平的智能,系统还存在很大的、跨层次优化的可能性。
清华大学电子工程系教授、系主任,国家自然科学基金杰青、IEEE Fellow,无问芯穹发起人 汪玉
董彬:我今年看到模型的推理能力,尤其是多模态推理能力有非常大的提升。去年年底我们基于北大数学不同课程的期末考试做的评测集,也包括博士资格考试难度的题目,今年很快就被新模型刷爆,至少在解题方面,我感受到了模型很强的推理能力。尤其是最近发布的DeepSeek-V3.2、Gemini 3 Pro在推理能力有非常显著的提升,这是我今年印象非常深刻的。
北京大学北京国际数学研究中心博雅特聘教授、北京中关村学院常务副院长 董彬
张一甲:刚才我在分享主题报告时提到,有11种不同类型的基准都在被模型快速突破,数学基准在这个过程中被颠覆得尤其快,这是为什么?
董彬:数学和代码一样,作为形式科学可以构建高效、高质量的Verfication(验证)环境,这跟自然科学有本质的不同,所以在数学推理层面,有如此快的进展也不奇怪。
张一甲:所以AI跟人类,可能对于什么简单、什么难,可能是反过来的。接下来问下王院长,在你看来智能本身在今年最重要的突破是什么?
王仲远:一句话总结,我认为今年是大语言模型的成熟和多模态技术突破。
从DeepSeek-R1的发布到GPT-5的发布,这些在我看来都证明大语言模型已经进入到相对成熟的阶段,工程化的各种优化变得非常重要。
另外是多模态技术。去年我来参加甲子引力年终盛典时就说过,2025年多模态技术会有突破。例如,谷歌发布的Gemini 3、Nano Banana以及智源发布的悟界·Emu3.5,我们认为这些都是在探索多模态技术的可行路径,将来可以进一步推动各行各业的多模态数据被有效利用以及发挥推理能力。
北京智源人工智能研究院院长 王仲远
张一甲:回到今天对话的主题,我想问三位老师,在你们看来,AI正在“借假修真”——在混沌中试错,还是已经“去伪存真”——逼近某种真实的认知机制。在路径方面,AI研究是不是真的找到了法门,还是在可能存在问题的路上一路狂奔?
汪玉:从做系统的角度看,我认为现在大家还没有找到一条明确的路,还是在不断尝试的过程中。目前还没有人可以解释Scaling(规模化)这条路径一定是对的,所有人还是在狂奔的路上,在不断修正迭代。
在高校,我们也看到了一些问题,比如Scaling其实是高校不能走的路,因为它需要太多的资源。高校能做的事情更多是在给定智能能力的情况下,让资源消耗变少,以及探索新的Scaling路径的可能性。
董彬:从我的角度来看,现在这条路肯定不是最优的,但似乎也没有走到死胡同,所以大家还在沿着这条路往前走,但确实很昂贵(电费贵),所以我们肯定要更加积极探索不一样的路径,高校的研究更多是探索可能性。如果有计算资源的企业或者研究院所,肯定在现有的路径下还要继续往前冲。
我想提醒大家一点,我们把AI的能力提升到巨大的milestone(里程碑)的水平,即便我们走的不是最优的路径,但这也是有可能的。
王仲远:个人认为,在这一轮大模型的发展过程中,“真”肯定有。我们探索到一种受人脑启发的神经网络,能够把数据压缩到神经网络,并且看起来像智能涌现的能力。不管是大语言模型或多模态模型,亦或是世界模型,还是有真实的内核在里面。
从做学术的角度来讲,这是不是一个最优路径,一直都是非常有争议的话题,因为人类大脑的耗能大概是10到20瓦之间,但现在大模型所用的大型算力集群,耗能规模可能相当于一座小型城市,这显然是两种在物理实现上完全不同的路径,我们都期待有更加绿色、高效的路径,能够帮助我们实现智能。
另一方面,在整个大模型的发展过程中,对比人类大脑还是有很多缺失的部分。举一个例子,最近很多人感染流感,当人类看到自己的家人发烧时,决策机制、紧张程度和同理心很不一样,现在的人工智能显然做不到这一点。
虽然我们可能探索出一种数据压缩产生智能的路径,但依然没有办法完全模拟人类大脑很多的决策机制。
张一甲:三位老师分享的观点很有意思。人工智能目前从路径上来说,是不是最优解,这并不一定。有没有必要有最优解,答案可能也是否定的。就像《流浪地球》电影里呈现的,当地球面临威胁的时候,把地球推走不一定是逻辑和理论上的最优解,但如果可以被实现,那么就是可行的路径。其实,我认为,AI不完全是一个科学命题,也是工程和实践的命题。
最近OpenAI前首席科学家伊利亚(Ilya Sutskever)接受采访时提到了一个很有意思的现象:AI“既聪明又蠢”——在考试上超神,在真实场景里修个bug却容易陷入循环,引入新bug。他提出的一个解释是,也许强化学习(RL)训练让模型变得有点过于一根筋和狭隘,有点过于无意识,这似乎是对当下主流路线的一种质疑,你们怎么看?
甲子光年创始人&CEO张一甲
王仲远:强化学习在泛化性上的挑战,在学术界和工业界一直是公认的难点。其实不仅仅在大模型,包括具身智能,大家所看到的很多机器人演示,比如做咖啡,盛爆米花,实际都是通过强化学习。如果你换一个位置,换一个杯子,它可能就会失败。
但我认为强化学习是有用的,在真实世界里,人类也在通过“试错—反馈”不断学习和练习,当反复练习把技能固话为“肌肉记忆”,事实上也可以做得非常好。但现在的大模型进行强化学习的时候,会出现很明显的遗忘现象,这是需要突破和解决的。
董彬:这不是强化学习的锅,而是大家没有用对。强化学习是可以让AI从行为克隆走向真的有可能举一反三,甚至做到超越人类非常重要的手段。
为什么我说大家没有用对?包括DeepSeek-R1,GPT的O系列,这些强化学习训练的大语言模型,主要用的是ORM(Outcome Reward Model)的方式,以结果论英雄,对过程没有足够的监督,这是非常大的问题。
这也是为什么,有些时候AI会探索出一些人们觉得可笑的中间路径,有些时候又非常冗长,绕来绕去。其实对过程没有监督,也带来很大的安全隐患,因为只讲究结果,中间有可能会侵害人类的利益。
说白了,强化学习是近似求解动态规划的一种方式,动态规划是求解最优控制的一种方法。所以如果真的做对了,知道求解最优控制问题中过程的监督,至少和最终结果监督同等重要。只不过现在因为训练和工程限制,不太容易找到合适的过程监督方式,所以被大家暂时搁置了。这不是强化学习的锅,而有更加深层次的因素。
汪玉:从我的角度来看,强化学习的思想没问题,有可能是用的方式不够好,没有办法解决现有的问题。
从系统角度来看,真正大规模的强化学习与传统的训练有巨大区别。因为在传统的大模型训练中,大多是确定性的数据流图,把确定性数据流图摆到一万台机器上,还是一种相对确定的优化过程。
但强化学习的每一次交互是不确定的。模型部署到这1万台机器上的时候,怎么把这1万台机器用好,就比较复杂了,需要系统性的优化,这件事情目前大家还是在不断去更新、去研究。
系统优化要能跟得上算法发展,才能够推动算法本身向更复杂、更多元的方向探索。否则只以单一结果评价,算法的进一步发展将无从谈起,因为整个系统缺乏必要支撑,这是我从系统角度看的一点看法。
张一甲:其实几位老师表达了对强化学习的一种信念,如果有问题,那是方法的问题,不是强化学习的问题。但是AI历史上其实关于范式或思想已经发生了很几次转折、几次泡沫,是什么让你们对强化学习有这么强大的信念,觉得它就是个对的方向?
汪玉:人就是在不断迭代的过程中成长的,我觉得现在我们对于智能体、大模型,或者说对以后的智能也有这样的期待,这是一种莫名的坚信。
董彬:简单回答就是It makes a lot of sense(这很合理)。
我们作为一个智能体,在环境里面感知,根据我们感知的信息做出决策,然后利用我们的肢体去执行,环境再给我们一个反馈,然后不断重复这个过程。通过这个过程我脑子里形成世界模型,我也变得越来越聪明。所有的这一切都是可以用最优控制来描述的,近似的求解动态规划(强化学习)就是求解这个最优控制问题,我觉得没有什么好说的。
王仲远:其实,人工智能很多技术都源自于对人类学习机制与认知范式的借鉴。我认为还是会有预训练,就是一个很强的基座模型,它是一个通识的,它能够把文字、图像、声音各种多模态的信息全部都学习了。
而在后训练阶段,强化学习肯定很重要,因为它进入到各行各业,当它要解决实际问题的时候往往离不开基于反馈的学习与迭代,因为人类也是这么干的。
第一性原理让大家坚信,强化学习依然是一个可行路径。
2.谈研究选择:如何“去伪存真”
张一甲:下面几个问题我想单独问一下三位嘉宾。首先是汪老师,你现在的研究和工作围绕AI基础设施进行,这两年AI的轰然成势,对底层计算基础设施提出了哪些新的需求?这意味着算力体系需要进行哪些优化设计?
汪玉:首先,在AI基础设施领域,中美有一些不同。美国的做法还是在不断拓展算力规模,然后用更大的规模、更多的数据和更好的算法来不断迭代性能。但在中国,我们在有限的算力规模下,需要做到接近或者超越性的水平。所以中国可能更需要从算法到软件、到芯片、到制造的一个垂直的优化。由于资源限制所带来的路径差异,这是我们第一个要想明白的事情。
第二,现在模型(参数量)还是越来越大的,包括最近Gemini 3,我们推测它应该是一个巨大的模型。巨大的模型推理如果要进入千行百业,最终可能还是要看Per token所消耗的能量,当然能量会最后转化为价格,价格是成本问题,如果成本不够低,是没法让所有人都用起来的。所以Per token价格的本身,或者说智能和能源的对价,会决定AI到底能不能在千行百业被用起来。
此外,进一步提升智能其实需要更多的迭代反馈,更多的迭代反馈也意味着有更大的算力,目前是有更大算力的投入,所以怎么样做到极致的算力利用效率,也是非常重要的。
在目前这个时间点,做系统、做芯片、做算法、做应用的人是要结合起来的。现在Agent也带来了对于系统整体的进一步挑战,应用首先和Agent离得更近,然后再到模型、到软件、到芯片、到制造,所以我觉得现在要更多地合作起来。
张一甲:的确,中美在AI基础设施领域是两种不同路径。但你能不能一句话告诉我,为什么我们要走追求性价比的路,而不是和美国一样去砸资源,或者两条路并行呢?
汪玉:台积电每年能够生产的先进工艺的晶圆总量,其实决定了全世界先进芯片的总量,把这两个数字放一起看会比较清楚。
张一甲:董老师,你的研究领域很有趣——AI for Mathematic(人工智能赋能数学研究)。从你的视角看,大模型生成内容的本质是否是一种“概率真实”?从理论上,AI是否有可能逼近某种“认知上的真实”,还是它注定只能停留在统计近似上?
董彬:你这个问题里面有三个概念:概率、认知、真实,我们分别讨论。
首先是概率。其实我觉得我们也是一个概率型的生物,我们的灵光一闪、顿悟,可能我们并不知道我们大脑里是怎么运作的,也许有一个完全确定性的可解释的机理,但是这个机理我们不理解,我们很多时候把不理解的东西用概率描述,这个可以让我们rationalize(合理化)这些不理解的事物。AI做的也是概率型的推理。
接下来是认知,基本上就是理解、推理、记忆等这些能力,我觉得AI现在可以非常好地模拟人类的认知。
但你要说AI的认知到底是不是真实的,也就是你刚才说的第三个概念,从数学来讲,AI是不是真实分两方面:
第一,它的推理到底对不对,这个我们可以准确验证。现在这个方向发展得非常快,AI可验证的推理能力在不断上升。 第二,因为数学作为科学的语言,它要有一些现实世界的Grounding(对应或关联),这个目前还相对比较弱。这就是为什么AI下半场主要是要让人工智能开始体验物理世界,这样它才能够把语言和符号的认知跟自然界形成对应。就像我们人类一样,先对自然界有了理解,然后才形成符号、语言,对它进行高度凝练,才产生了真正意义的智能。AI有点反过来,但是我觉得现在亡羊补牢为时不晚。
所以我觉得AI现在可以模拟人类的认知,在某些情况下是真实的,但对于数学来讲,它并不完全真实。
张一甲:王院长,今年是智源成立第七年,从“悟道”的大模型时代,到“悟界”的世界模型与具身智能时代,你们一直在推动从基础研究走向产业实践。在你们发布七周年文章里,有一句话:“从悟道到悟界,我们在不确定中寻找确定。” 想请你讲讲,在这样高度不确定的技术浪潮里,智源是如何寻找那部分“确定性”的?
王仲远:其实这句话还有后半句,“我们在不确定中寻找确定,在已知中探索未知”。
智源最早开始做“悟道”系列的时候,在那个阶段很多事情还存在不确定性,现在也变成了确定。从去年开始,我们就已经在探索下一代的大模型到底是什么,除了大语言模型之外,包括多模态模型、世界模型、具身智能模型,还是有很多的不确定,那么这些不确定中的确定是什么?
我们认为AI如果要解决真实物理世界的各种问题,需要多模态,需要从数字世界迈向物理世界。这也是为什么我们在2025年智源大会首次提出,人工智能正在加速从数字世界迈向物理世界,这也是我们发布“悟界”系列大模型很重要的原因。这代表对未来各种充满不确定性中的确定性判断,也就是AI会越来越多进入物理世界,解决物理世界的真实问题。
那么,什么是“在已知中探索未知”?已知的是大语言模型训练方法和路径,未知的是:多模态应该是DiT架构、LLM+CLIP架构,还是我们一直在坚持的Autoregressive(自回归)原生多模态;世界模型应该是Video Generation还是Next-State Prediction;具身智能应该分模块,还是端到端,亦或是基于世界模型。这些都是未知,所以我们要在已知中探索未知。
张一甲:我记得之前在和董彬老师的一次对话中,董老师特别提到研究需要一种“审美”,需要一种“自上而下的信念”:在实验数据混乱、bug频出时,仍然相信“这在原理上应该能行”,才能扛过黑暗期找到答案。
我也想听一下你们的观点,我们都知道AI是一个非常消耗资源的研究的方向,在你们投入大量资源做一件事情的时候,你们的“审美”是什么?选择做什么、不做什么,你们的判断标准是什么?如何做出去伪存真的判断?
王仲远:我们还是会遵循第一性原理,尤其是人类会怎么思考、怎么做。所以在符合第一性原理的情况下,简洁就是美,因为越简洁的技术解决方案、越简洁的架构,越容易被市场所接受,越有生命力。
张一甲:智源研究院所覆盖的研究领域也很广,你们做的事情也很多,有哪些方向是你们思考后决定不做的?
王仲远:确实有非常多的方向我们是不做的,比如多模态我们没有做DiT架构,也没有做LLM+CLIP架构,在AI for Science领域我们只做AI for Life Sciences,没有做AI for数学、物理、化学等等,我们有自己的选择。
在我们做的多模态领域,虽然有很多概念,但其实我们的技术解决方案就一个——用自回归的架构把不同的模态的数据给压缩起来。这是我们认为的第一性原理,也是我们认为的简洁。像我们最近发布的悟界·Emu3.5,它的效果已经能够达到甚至超过非常多的DiT架构的文生图、文生视频模型,同时Emu3.5又具备了多模态理解的能力,所以这就是我们对于技术路线的判断和坚持。
董彬:我从两个角度回答你这个问题:第一,选择做什么;第二,选择怎么做。
我选择做什么的标准是:假如做成这件事,会让很多业内大佬大吃一惊,甚至非常不舒服,那就可能会产生一定颠覆性的影响。当然,很多时候这种事情不存在可行路径,但是只要我看到了有可行路径,在我脑子里的这些拼图有可能拼在一起,哪怕中间有一些hallucination(幻觉)的环节在,我都会忍不住跳进去探索,因为我非常喜欢做那种高风险、高回报的研究。
至于选择怎么做,我和仲远的观点类似,我会比较喜欢简洁的方式。我先用最简单粗暴的方式试一试,看看是不是差的一塌糊涂,我再分析它为什么差,逐渐引入更加复杂的方法。我非常不喜欢那种没有意义的炫技,就是所谓的雕花,只是为了能够让人觉得你这里面有创新。我更喜欢比较质朴的,我在加新的元素进我方法的时候,我会非常挑剔,我会不断的思考这个是不是绝对有必要的。
汪玉:我完全同意大家说的第一性原理。从芯片到系统,其实都是相对大的工程,在这个大工程中,如果你还要做协同优化,还要粗暴地去干,是非常难的一件事情,在大规模工程里用不断试错来找“核心”的代价太大了。
我们希望能够在复杂的事情里面找到那些最重要的问题,就像写一个数学公式一样,能把那几个重点的工程里面最需要找到的“核心”剥出来。
这对人的要求也会变得尤其高,所以,最近我们在反思,在AI已经这么强大的情况下,应该怎么去让学生们或者是同事们具有这样的能力,这是一个比较有趣的话题。
3.谈未来期待:从混沌中涌现价值
张一甲:其实刚才你们的回答与我们大会的主题“轰然成势 万象归一”都有所呼应。最后,请三位老师分享一下你们对AI未来的期待,我们分为两个问题:明年的看点会是什么?如果让你对5年之后的AI形成一个预判,这个预判是什么?
王仲远:我认为在明年多模态会有更多技术突破,并迎来产业爆发,另外世界模型也会有核心技术突破。
5年后的话,我个人很相信AGI(通用人工智能)会初步实现,虽然大家对于AGI总是有各种各样的定义上的争论,但我们可以认为不管是模型技术本身,亦或是通过Agent这样一些体系,会让我们看到像AGI这样一个新的时代的到来。
董彬:我不擅长做预测,我只能说说我的希望。
明年我希望能够看到,在科学研究层面,特别是自然科学,包括数学领域,能够出现越来越多的low-hanging fruit(容易实现的成果点),让AI能够独立解决,或者通过人机协同的方式解决。今年其实已经可以看到一些端倪,但范围还非常有限。在教育方面,我觉得明年我们一定要想清楚人工智能时代我们怎么培养我们下一代,这是刻不容缓的事情。
如果拉到5年的时间线,很难预估会发生什么。但是就像写代码的人是希望制造一个AI,让自己以后不用写代码了。我是希望以后大家用数学这一门现在看起来是非常高深的语言,能像做Vibe Coding(氛围编程)一样,大家都可以运用数学这样一门严谨的语言,大家都可以享受到数学乐趣。
对于数学家来讲,我也希望能把数学家的聪明才智释放到更加有创意的研究中,而不用被困在比较繁琐的事情上。对于教育来讲,相信那个时候我们已经有非常确定的答案,已经在实行,培养能更好适应人工智能时代的下一代人才。
汪玉:因为我是电子系的主任,最近讨论“十五五”规划,我们高度关注“物理世界的智能”。一个方向是怎样用物理器件促进智能的发展,特别是具身的方向,因为智能不只是在数字世界,还要到物理世界去;另外一个方向是怎样用智能促进物理的进步,这其实是一个闭环。我希望未来在这两个方向上有更大的突破,不知道明年是否在系里,我们可以把AI Co-Scientist(AI协同科学家)给到我们做物理研究的老师。
而在未来五年的时间里,具身智能能否进入到更广泛的应用场景,在五年之后可以做到百万台、可以进入家庭服务,这还是非常大的挑战,我们也期待这样事情的发生。
张一甲:三位老师的回答非常值得期待,因为他们不仅在做技术和产业实践,而且都在培养年轻人。换句话说,他们在以点带面影响浪潮的某一个支流的方向。
今天这场巅峰对话让我感受到,真和假不是绝对清晰,不是逻辑上的正确和错误,更多是关于我们的信念和选择,所以我也希望在混沌当中真正的价值可以涌现出来。
希望今天的讨论可以成为AI修真之路上值得回看、咀嚼的小节点,感谢三位老师的精彩分享!
(封面图及文中配图来源:2025甲子引力年终盛典)
热门跟贴