机器之心发布

2024 年,AI 证明了自己能完成单项任务;2025 年,AI 学会了跑通完整工作流;2026 年,AI 正在叩响 “触达实体世界” 的大门。

打开网易新闻 查看精彩图片

当人工智能迎来从 “Next-Token Prediction(预测下一个词元)” 到 “Next Physical State Prediction(预测下一个物理状态)” 的范式革命,当 AI 从单纯的 “推理” 向具备编排能力的 “智能体 AI” 和触达实体世界的 “物理 AI” 全面进化,全球 AI 创新的风向标再次指向北京。6 月 12 日,第八届北京智源大会在北京中关村国际创新中心启幕,以 “技术前沿、国际视野、青年人才” 为底色,汇聚两位图灵奖得主、40 余位 AI 企业 CEO 与首席科学家、200 余位顶尖专家学者,以及 30 余位 30 岁以下青年科学家,中国 AI 产业世界模型与 Agent 领域最具代表性的创新力量首次集中同台,围绕世界模型、通用智能体、具身智能三大核心方向,正式划定下一代人工智能从数字世界迈向物理世界的演进路线。

作为中国 AI 领域公认的 “内行学术盛会”,智源大会自创办以来,已累计汇聚 14 位图灵奖得主、过千位产学研顶尖专家,吸引全球 30 多个国家和地区超千万人次专业人士参与。今年,大会带来 25 场论坛、200 + 场重磅演讲,不仅首次实现中国 AI 产业世界模型与 Agent 领域最具代表性创新力量的集中同台,更推出 “智能体听会” 的全新参会体验,让全球观众直观感受 AI 落地真实场景的前沿成果。

全球顶配阵容集结

图灵奖得主解码下一代 AI 核心命题

本届智源大会的嘉宾阵容堪称 “学术天花板 + 产业全明星”。两位图灵奖得主从各自领域出发,直击 AI 走向真实世界的核心挑战与底层逻辑。

2015 年图灵奖得主、现代公钥密码学奠基人 Whitfield Diffie 聚焦 Agent 时代的双重安全挑战,以 “Security For AI Agents,Security Against AI Agents” 为题展开分享。他提出,当前 “控制论(反馈)” 式的做法是在程序失败时进行修复,而未来的愿景应是开发形式化方法,以大幅提升程序按预期运行的可靠性。Diffie 对比了密码系统因程序规模极小而可充分研究验证的优势,指出典型的计算机程序 —— 包括编译器、操作系统、应用和智能体 —— 规模要大得多,通常已超出人类的验证能力,人们期望这些任务未来可由 AI 完成。他强调,当前编程实践中,对智能体的限制(Confinement)—— 即保证智能体只能访问授权资源 —— 在现有编程中仍做得不足。

打开网易新闻 查看精彩图片

2024 年图灵奖得主、强化学习奠基人 Andrew Barto 以 “Rediscovering Reinforcement Learning” 为题,将这一范式的本质归结为 “控制、搜索与联想记忆” 的三位一体 —— 它既是 “带着批评家的学习”,也是 “试错学习”,核心在于 “缓存搜索结果” 而无需持续搜索。他指出,“机器学习最初就是强化学习”,而 “突触可塑性实现了效果律”;Schultz 等人的 “奖励预测误差假说” 则印证,中脑多巴胺神经元的相位性活动所编码的,正是 “新旧预期未来奖励之间的误差”。Barto 强调,“强化学习与神经网络的计算研究从一开始便紧密交织”,二者 “均发端于大脑如何运作与学习的假说”,而 “深度强化学习的计算能力与大脑奖励系统的最新成果相结合,指明了下一轮进展的方向”。最后,他以 “小心你许的愿 —— 你可能真的会得到它” 发出警示,提醒人们警惕奖励信号设计中的 “反常实例化” 风险。

打开网易新闻 查看精彩图片

智源研究院理事长黄铁军与之江实验室主任、阿里云创始人王坚围绕 “总有人比时代早十年” 展开播客现场对话,由《漫谈 Light the Star》创始人卫诗婕主持。对话从中国 AI 范式演进出发,探讨了中国大模型如何从追赶验证走向路线选择、体系构建与范式创新,如何突破互联网文本数据天花板与算力荒的极限状态,以及从 “跟随国际主流范式” 走向 “形成自身问题意识” 的原创范式跃迁等议题。对话还聚焦 Agent 时代的新范式 —— 从推理时代迈入 Agent 时代,海量高并发智能体对真实世界产生的直接影响与风险。面对 AI 从 “客体” 向 “主体” 演进,两位嘉宾也分享了对人与 AI 关系、人类文明与 AI 文明如何共存的长期思考。

打开网易新闻 查看精彩图片

在 “重构世界 —— 中国大模型巅峰对话” 圆桌环节,智源研究院院长王仲远与清华大学计算机系教授、生数科技创始人朱军,小米集团 MiMo 负责人罗福莉,以及清华大学计算机系教授、面壁智能联合创始人兼首席科学家刘知远,南洋理工大学校长讲席教授、人工智能交叉研究院院长安波等行业领军者,围绕超级模型能力演进、AI 自进化、多模态与世界模型等核心议题深入交流,共同探讨了数字世界向物理世界跨越的重构逻辑。嘉宾们认为,超级模型与智能体系统正进一步释放更大势能,自进化有望成为驱动智能跃迁的新引擎,多模态与世界模型的加速成熟有望推动 AI 真正从数字空间走向物理世界。在重构世界的进程中,同时应该为青年人才创造更广阔的探索空间。

打开网易新闻 查看精彩图片

与此同时,来自谷歌、Meta、英伟达、哈佛、MIT 等 20 余家全球顶尖科技企业及高校科研机构的代表,与阿里、腾讯、小米、生数科技、面壁智能、清华、北大、人大等中国 AI 行业最核心的创新力量同场交流。数百位全球 AI 领域学术中坚力量一同围绕世界模型、通用智能体、具身智能、AI 安全、AI Native 教育、Token 经济与 OPC、智能计算底层架构等前沿方向展开精彩演讲和前瞻性对话。

智源年度重磅发布

推出两大世界模型

世界模型被普遍视为继大语言模型之后,人工智能发展史上最具变革性的战略机遇,亦是通往物理世界通用人工智能(Physical AGI)的必由之路。当前,业界对世界模型的战略价值已形成广泛共识,但在技术路线的选择上仍处于多元探索、尚未收敛的蓬勃发展阶段 —— 从 “预测下一个 Token” 到 “预测下一个状态(Next State)” 的范式跃迁,正在成为最具潜力的主流方向之一。

打开网易新闻 查看精彩图片

智源研究院院长王仲远在做智源进展报告中提到,当下人工智能正沿着从大语言模型向多模态大模型再向世界模型演进的方向,加速从数字世界迈向物理世界。世界模型作为面向真实物理世界的下一代基座模型,以 “预测下一物理状态” 为核心,代表着人工智能的下一个重要范式跃迁。世界模型不仅能感知、理解、推理真实物理世界的时间、空间、物理规律和物理常识,同时能涵盖文本、视频、深度、力觉、感知等全模态数据,还具备主动交互能力,能够支撑各种物理世界的下游应用。

打开网易新闻 查看精彩图片

智源研究院是国内最早提出并开展世界模型研究的科研机构。2023 年智源大会上,杨立昆(Yann LeCun)就阐述了新一代世界模型的概念;2024 年智源大会上,智源研究院提出的人工智能大模型技术路线预判,明确指出世界模型是下一代大模型技术;2024 年发布的悟界・Emu3 和 2025 年发布的悟界・Emu3.5,更是全球首个原生多模态世界模型。基于在大模型领域持续的技术积累与前瞻布局,2026 年智源推出了悟界・Physis-v0.1。悟界・Physis 的诞生正是基于智源对人工智能发展路径的判断以及从 “悟道” 到 “悟界” 的技术传承与延续。随着大语言与多模态技术日趋成熟,未来人工智能的发展重心将进入世界模型时代。

打开网易新闻 查看精彩图片

智源认为,现有世界模型相关的技术路线可分为四类:第一类是以语言为中心的世界模型,包括 VLM、VLA,模型在文本空间中预测下一个词,学到的是语言描述的世界,并不能理解背后的物理后果;第二类是以像素为中心的世界模型,像 Sora 和 Seedance 等视频生成类模型,在视觉空间中学习视频或图像,学到的是像素描述的世界;第三类是以三维结构为中心的世界模型,包括 3D 重建以及李飞飞团队的 World Labs Marble 模型,不过模型重建 3D 空间不等于理解世界,几何结构也不代表物理状态;第四类是以视觉表征为中心的世界模型,比如杨立昆的 JEPA 系列模型,预测的是视觉表征的压缩,但视觉嵌入演化不等于物理规律演化。

在智源看来,世界模型作为面向真实物理世界的下一代基座模型,以 “预测下一物理状态” 为核心,代表着人工智能的下一个重要范式跃迁。世界模型不仅能感知、理解、推理真实物理世界的时间、空间、物理规律和物理常识,同时能涵盖文本、视频、深度、力觉、感知等全模态数据,还具备主动交互能力,能够支撑各种物理世界的下游应用。

智源在此方向上的核心布局体现为悟界・Physis-v0.1 与正在研发中的悟界・RoboBrain Orca。悟界・Physis-v0.1 作为全球首个通用世界基座模型,以 “预测下一个物理状态(Next Physical State Prediction)” 为底层范式,彻底打破传统 AI 垂类场景专用的技术瓶颈,依托独创技术架构,以物理隐空间表征替代传统像素、帧级预测方案,实现跨场景通用物理规律强化学习。搭载专属物理状态编码器,可完成视频、深度 RGB、3D 点云、力触反馈等全模态信息压缩,统一转化为标准化隐空间物理状态 Latent State。模型支持 50 + 复杂物理场景长程推理,具备物理一致性、动作因果性、长程可推演性、通用泛化性四大核心能力,从根源提升 AI 物理推理的真实性与可靠性,可广泛应用于严肃工业、具身智能、物理仿真、科学研究等真实物理场景。

打开网易新闻 查看精彩图片

悟界・RoboBrain Orca 是以下一个物理状态预测为核心的具身大脑,构建 “统一表征 — 建模 — 预测 — 交互” 完整闭环,实现从 Next Token / Frame / Action Prediction 升级为 Next Physical State Prediction,彻底打破传统 AI 仅能理解文本的局限,推动 AI 从理解文本走向感知、预测与交互物理世界,并融合大量 Ego-centric 交互数据,强化世界模型的具身表征,有效提升下游少样本与跨场景的泛化能力。悟界・RoboBrain Orca 具备统一表征、因果推演、模态解码三大核心能力,可同时生成语言思考、视觉预测与动作决策,实现 “想、看、动” 三位一体,赋予具身智能机器人打通 “认知 — 预测 — 行动” 完整链路的能力,支撑具身智能机器人在物流场景、酒店服务场景等真实环境中的长期自主作业。

打开网易新闻 查看精彩图片

两者形成 “物理基座 + 通用交互” 的双引擎架构,共同构成完整的世界模型技术体系,为物理 AGI 提供从底层物理可信性到顶层类人认知交互的全栈支撑,推动数字世界与物理世界加速融合。

从悟道到悟界

智源构建通往物理 AGI 的完整技术路径

本届大会上,智源研究院全面展示 “从悟道到悟界” 的技术跃迁成果 —— 从 2021 年让 AI “学会语言” 的悟道系列,到 2024 年让 AI “懂世界” 的悟界系列,智源正在构建一条通往物理 AGI 的完整技术路径。

智源依托自研科研体系,完成从悟道到悟界大模型体系全面升级,在核心赛道实现原创技术领跑。多模态领域悟界・Emu3 于 2026 年 1 月登上 Nature 正刊,是我国科研机构主导的大模型成果首次在 Nature 正刊发表。在此基础上,悟界・Emu3.5 完成关键升级,从 “预测下一个词元” 进一步扩展到跨视觉与语言序列的 “下一状态预测”,以纯自回归框架原生实现文本、图像、视频的统一理解与生成,打破传统多模态技术路线的模态孤岛与架构割裂。它内置时空关系、因果逻辑与物理世界演化规律建模能力,不仅攻克了生成内容违背真实世界物理规则的行业痛点,更补齐了 AI 从数字世界走向物理世界的技术缺失,兼具顶级学术价值与底层产业支撑价值。

打开网易新闻 查看精彩图片

悟界・Brainμ1.0 是全球首个理解与生成统一的多模态神经科学大模型,旨在从世界模型出发,构建多模态脑科学通用基座。由智源联合清华团队基于悟界・Brainμ 开展的研究成果也已刊发于 Science。模型可将人类、猕猴、小鼠跨物种,EEG、fMRI、MEG、fNIRS、神经像素、钙成像等全模态脑信号,统一编码为标准 Token,实现数据格式归一,并通过多模态对齐,将脑信号 Token 与语言、图像、视频等通用模态对齐,嵌入预训练大模型,充分释放大模型知识表达与泛化能力。此外,全球最大的 AI-Ready 神经科学数据平台悟界・BrainToken,汇聚全球开源神经科学数据并完成全量 Token 化,总量突破万亿级别。Brainμ1.0 可利用数据 Token 化,解决神经科学领域数据孤岛(复杂、稀疏、不对齐等)问题,降低神经疾病诊断成本,辅助筛查诊断阿尔兹海默症、抑郁症、帕金森等疾病。目前,悟界・Brainμ 已用于 AI 辅助科学家分析数据,支撑 “记忆 - 睡眠” 调控机制研究成果登刊 Science。

打开网易新闻 查看精彩图片

悟界・OpenComplex2.5 是可泛化、物理真实的下一代 AI 驱动药物发现模型,重点解决固有无序蛋白(IDP)动态构象难以解析的问题。它通过可泛化、物理真实的端到端全原子分布建模,精准捕捉 IDP 灵活、多变的构象状态,突破传统静态结构分析在高动态靶点研究中的局限,为神经退行性疾病等难成药靶点研究提供新的技术路径。模型统一覆盖药物研发中的四个关键步骤:口袋识别、反向筛选、结构预测和亲和力预测。在口袋识别环节,在靶点蛋白中定位可成药口袋,实现高质量的口袋检测、对多样化靶点具有鲁棒性、提升命中发现效率;在反向筛选环节,为给定化合物寻找潜在靶点,实现基于大规模靶点库搜索、对精准的靶点排序、加速化合物再利用和脱靶评估;在结构预测环节,预测蛋白 - 配体复合物的三维结构,实现高精度三维结构预测、捕捉关键相互作用、可靠用于下游分析;在亲和力预测环节,可准确估算结合亲和力相关指标的相对变化趋势,并可泛化至不同化学空间和靶点类型,支持先导化合物筛选与优化。

打开网易新闻 查看精彩图片

智能体蓬勃发展

智源形成多层次布局与成果

自 2024 年起,智源大会便率先关注智能体方向,剖析 LLM 与 Agent 结合所带来的新系统范式。2025 年,大会进一步探讨 “自主智能体” 这一议题,推动 Agent 从 “模型应用” 走向 “智能系统”。2026 智源大会讨论重点再次升级,关注 AI 如何稳定、持续、安全地与现实环境交互,并真正参与工作流与社会系统运行。目前,智源基于深厚技术底蕴形成多层次智能体布局与成果,推出覆盖心脏辅助诊断、科学发现、个人专属助理以及生物安全防护的智能体矩阵。

打开网易新闻 查看精彩图片

BAAI Cardiac Agent 是全球首个面向心脏磁共振的辅助诊断智能体,依托安贞医院两千余例心血管患者超 3 万条影像 - 文本配对多模态数据,构建一站式 “结构分割 - 功能评估 - 疾病诊断 - 智能化报告” 智能体,推动优质心血管医疗能力普惠可及。BAAI Cardiac Agent 不仅能显著提升 CMR 影像的解读效率,同时融合安贞医院心脏专科医师的临床诊疗经验,其 Agent-Expert 系统复刻专家团队协作式诊疗流程,最终实现心脏疾病诊断精确度达到安贞医院顶尖心血管医生的诊断水平,AUC 超 0.93。

AREX 是面向科学发现的自主研究智能体,致力于推动人工智能从模仿学习向自主学习跨越,让 AI 学会自我提升。它面向科研过程中创新思路稀缺、设计实现缓慢、实验论证繁琐等痛点,全面降低科研全流程对人类参与的依赖,辅助人类研究,实现自主科学发现。未来,AREX 可服务于文献调研、思路拓展、实验设计、结果论证与论文撰写等科研全流程,也可用于人工智能服务的全流程快速构建、自主优化与迭代,并进一步推动人工智能技术赋能基础学科前沿问题的自主探索与科学发现。

SoulAgent 是面向个人用户的专属智能体,采用全新自研架构,实现 Token 成本节省 30%,资源占用降低 80%。SoulAgent 基于用户画像和 skill 的自进化,可持续成长为用户的专属数字专家,满足用户个性化服务、长期记忆留存、高私密安全的智能助手核心需求,有效解决传统通用 AI 助手不懂用户习惯、响应适配慢、用户数据无保障、无法实现长期深度协作的行业痛点,打造专属化和个性化的智能服务体验。在智源大会上,SoulAgent 帮助参会者实时听会、捕捉大会重点、提炼前沿观点与专家洞察,在并行会议中打造随时 “在场” 的智能分身。

智源推出面向有害蛋白获取的风险发现智能体,首次打通 “计算机模拟推演” 与 “真实实验验证” 的完整链条(干湿实验闭环),验证了先进 AI 智能体能够辅助绕过生物安全筛查机制,将目标有害蛋白序列拆分为多个 DNA 片段并组装,最终成功获取有害蛋白基因序列。针对传统 AI 生物安全评估多为事后被动响应,且攻击路径难以完整复现的问题,该系统通过主动模拟攻击者行为,提前识别智能体在生物知识获取、有害蛋白序列设计等环节的脆弱性,将风险防控从 “事后补救” 转为 “事前演练”。

全面升级至 FlagOS 2.1

打造普适、高效、智能的智算基座

智源与开源社区共建了众智 FlagOS,将企业面临的 “M 款模型与 N 款芯片” 适配难题简化为 “多模型 + 多芯片” 的统一接入解决方案。作为当前全球支持芯片种类最多的智算系统软件栈,FlagOS 2.1 能够支持 18 家芯片厂商的 32 款芯片,覆盖 NVIDIA、NPU、GPGPU、DSA、RISC-V AI、ARM 等多种架构,支持 “多种模态”“多种场景” 大模型在多种 AI 芯片迁移部署。通过 FlagOS 的通用算子库、统一 AI 编译器、自动算子生成工具、vLLM 多芯片统一插件等关键组件,支持 90% 以上主流开源大模型的多芯片部署,包括 DeepSeek、Qwen、面壁 MiniCPM、智谱 GLM、MiniMaX、混元、阶跃 Step 等。发布即多芯适配,DAY 0 即实现 DeepSeek V4、Qwen3.6、MiniMaX M2.7、MiniCPM-o4.5、 MiniCPM5-1B 混元 Hy-MT2 等大模型的多款芯片适配。

打开网易新闻 查看精彩图片

FlagOS 的算子总数已超过 600 个,并且仍然在快速增长。同时 FlagOS 还能够支持 18 家芯片厂商的统一编译器和 12 家芯片厂商的统一通信库。在端到端性能极致优化方面,FlagOS 拓展 Triton-TLE 语言能力,已支持华为昇腾、海光、摩尔线程、清微智能、英伟达等多款芯片,极致优化大模型关键算子性能;八大算子库总数超 600 个,实现从 “大模型专用” 到 “科学计算” 的能力延伸,核心组件已进入 PyTorch 基金会生态项目;FlagCX 通信库,统一连通 10 款芯片,并实现全球 AI 芯片通信的 ITU 国际标准与国家标准 “双立项”。FlagRelease 发布 Express “高速” 镜像版本,可一键安装使用,实现端到端的高速推理。FlagCICD,首个 AI 多芯片开源集成测试发版平台。在前沿探索层面,FlagQuantum,高性能量子电路模拟框架,在多种 AI 芯片、及量子电路的机器学习,迈出 “量智融合” 的第一步。

目前,FlagOS 的生态成员已经超过 80 余家,全球下载量超过 37.5 万次,触及开发者 5.6 万人。

巅峰对话与前沿论坛

共探 AI 产业未来方向

本届大会设置 1 场主论坛 + 24 场平行论坛,深度覆盖 AI 全栈前沿方向,其中 AI Native 教育论坛与 Token 经济与 OPC 论坛首次亮相,分别探讨智能时代的教育变革与生产关系重构。AI Native 教育论坛首次系统性探讨智能时代的教育变革。当知识获取变得 “廉价”,创造力、问题意识、深度思考等能力将成为核心稀缺资源。来自基础教育改革者、AI 原生教育创新者与社会学、教育学专家将共同定义 “未来人需要具备的能力”,中小学到大学的 AI-Native 新势力也将现场展示他们的 AI 创作成果;Token 经济与 OPC 论坛聚焦智能时代的生产关系变革。Token 正在从模型调用计费单位,演变为 “智能生产” 的基础计量单位;而 One-Person Company(OPC)等最小创新单元的兴起,正在重新定义个人能力与组织边界。

沉浸式科研体验

近距离触摸 AI 落地成果

大会期间,智源打造了以 “启未来之智,溯创新之源” 为主题的 AI 科研体验区,集中呈现四大板块的前沿成果,让观众亲手操作、沉浸式感受 AI 与物理世界的交互。

打开网易新闻 查看精彩图片

在 SoulAgent 体验区,观众可现场领取专属智能体,体验跨会场同步听会、与顶尖学者 AI 分身实时对话;具身智能体验区展示了全球首个跨本体的人形机器人全自主乒乓球对打系统 SpikePingPong,由智源研究院与北京大学联合推出,已适配智元灵犀 X2、远征 A3、宇树 G1 等多类人形机器人平台,以及能完成套垃圾袋、双手协同清理等复杂任务的酒店清洁机器人;在众智 FlagOS 体验区,观众可以通过 “一键启动 FlagOS 系统软件栈”“FlagOS 知识大闯关”“FlagOS 自动生成算子” 等互动,直观感受跨芯片适配能力;AI for Life Sciences 体验区沿真实诊疗路径展示心脏 AI 诊断、神经科学研究与 AI 药物发现的落地成果,在安贞 — 智源心脏 AI 医院体验区,观众依次体验 AI 心电图分析与智能功能筛查、透明心脏与结构病灶精准分析、BAAI Cardiac Agent、AI 手术赋能;在神经科学体验区,观众深入了解 BrainToken 和悟界・Brainμ1.0;AI 药物发现体验区则呈现了悟界・OpenComplex2.5,它依托单一模型架构,解决四大关键制药步骤,核心指标超越国际标杆。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

自 2018 年成立以来,智源研究院先后发布了 “悟道” 系列大模型和 “悟界” 系列大模型,构建了自底向上的全栈大模型开源技术体系。无论是在大模型发展的早期,还是在物理 AI 的全新时期,智源研究院始终在引领人工智能大模型的前沿研究探索。截至目前,智源开源模型超 200 个,全球总下载量累计超过 10 亿次。同时也孵化了一系列在大模型领域和具身智能领域非常具有代表性的创新创业企业。从率先开启中国大模型探索,到定义面向真实物理世界的基座模型,智源以顶尖学术突破、产业生态孵化和全栈开源布局,持续为中国 AI 筑牢创新根基。

面向下一代人工智能技术范式变革,智源将持续引领技术创新,构建一条通往物理 AGI 的破局路径。