Scaling Law 遇瓶颈，AI 幻觉仍未解决！全球机器学习技术大会重磅开幕，揭示大模型未来之道|scaling|人工智能|大模型|技术大会|算法|预训练

从算法到应用，从技术突破到场景落地，大模型在这一年中取得了哪些具有里程碑意义的进展？

作者 | 《新程序员》编辑部

出品 | CSDN（ID：CSDNnews）

11 月 14 日，由 CSDN 联合高端 IT 咨询与教育平台 Boolan 举办的“2024 全球机器学习技术大会”在北京盛大开幕。大会核心聚焦大模型技术演进、多模态、GenAI 产品创新与探索等开发者们关注的 AI 前沿技术，共设置 12 大技术专题。主会场上，CSDN 高级副总裁、Boolan 首席技术专家李建忠，新加坡工程院院士、IEEE Fellow、昆仑万维荣誉顾问颜水成，传神语联创始人何恩培，新浪微博首席科学家、新技术研发负责人张俊林结合实践案例分享了他们在 AI 时代领悟的全新思考。

大会期间，来自腾讯、阿里巴巴、字节跳动、百度、美团、小米、蚂蚁集团、eBay、快手科技、京东、金山办公、小红书、得物、昆仑万维、新浪微博、商汤科技、潞晨科技、智谱AI、百川智能、新浪微博、澜舟科技、传神语联、昇腾、快递100、人民邮电出版社异步社区、电子工业出版社博文视点、清华大学出版社、机械工业出版社、人民邮电出版社图灵文化、JINA AI、Dify.AI、中科加禾、Lepton AI、RMKV元始智能、趋境科技、Percena、中国国际图书贸易集团有限公司、瞻胜传播、中国搜索、新译科技、东方国信、Nimdzi Insights 等知名科技企业与组织，中国科学院、微软亚洲研究院、北京智源人工智能研究院、中国人民大学、中国人工智能学会、中国信息通信研究院、北京语言大学、北京交通大学等学术科研机构的技术大咖与专家学者齐聚一堂，向现场观众与「云会员」们深入分享大模型技术实践及应用落地经验。

李建忠：大模型技术演进与应用创新洞察

作为 AI 领域的探索者与见证者，CSDN 高级副总裁、Boolan 首席技术专家李建忠为大会带来主题为《大模型技术演进与应用创新洞察》的开场演讲。他首先谈到了广受业界关注且成为推动大模型发展关键的扩展法则(Scaling Law)。Transformer 架构自 2017 年问世以来，逐渐引领 AI 进入大模型时代，此架构的成功在于完美适配了 Scaling Law，实现了算力、数据、参数三者之间的解耦，使得它们能够独立、快速地扩展。

李建忠 CSDN 高级副总裁、Boolan 首席技术专家

深入剖析 Scaling 背后的技术哲学，李建忠强调：“解耦方可通用，通用方可扩展。解耦需要设计正交，正交意味着独立性。” 在李建忠看来，这一哲学不仅适用于 AI 领域，同样在互联网发展史上也有深刻体现，例如：TCP/IP 协议实现了对网络连接的 Scaling，Web/HTML 则实现了对网络应用的 Scaling。

立足当下，李建忠基于强大的 Scaling 能力分享了过去一年中大模型技术的三大演进趋势：

Inference Scaling ：从训练到推理。在推理能力方面，李建忠以 OpenAI o1 为例并指出，OpenAI o1 基于强化学习(RL)和 Self-play 实现了推理的 Scaling Law，使模型从预训练阶段的“统计学习”转变为推理阶段的“探索创新”，完成了从系统 1（快思考）到系统 2（慢思考）的飞跃。
Modality Scaling：从文本到多模态。在多模态智能方面，李建忠分析了几个重要案例：Sora 使用 Patch 统一视觉数据的“元表示”，GPT 使用 token 统一自然语言文本的"元表示"，智源 Emu3 和 GPT-4o 则分别实现了多种模态的统一。李建忠强调了语言在多模态智能的地位，他引用维特根斯坦的观点：“语言的边界即思想的边界”，认为语言不仅包含人类知识，也蕴含了思维的推理过程。如果多模态系统中缺乏充分的语言数据支撑，其智能能力将受到严重限制。
Data Scaling：数据扩展。李建忠指出，AI 大模型的数据将从互联网上现有的数据（结果性、静态、显性）、逐步过度为合成数据（机器生成）和共生数据（过程性、动态、隐性）。在互联网上的静态数据被消耗殆尽的趋势下，人机共生数据将为大模型提供源源不断的数据供给。

最终，在落地的应用层面，李建忠认为 2024 年最显著的发展是智能体(Agent)。他预见互联网将从“信息网络”向“行动网络”演化，在这个新的范式下，人类只需表达需求，智能体就能完成规划和行动。这种转变不仅改变了计算任务的模式，也将重塑人机交互的方式，开启了一个全新的智能时代。

颜水成：基础模型的根基

新加坡工程院院士、IEEE Fellow、昆仑万维荣誉顾问颜水成在《基础模型的根基》主题演讲中表示，最初在 Training Scaling Law 阶段，AGI 似乎还遥不可及。然而，随着 Inference Scaling Law 的提出，通向 AGI 方向的路径越来越清晰。不过，颜水成指出，无论是文本交流、语音对话，还是基于视频的互动，实时性的要求都非常高。在这种情况下，仅靠 Training Scaling Law 和 Inference Scaling Law 是无法完全解决问题的。他强调，如果要长期致力于 AGI 的研究，关键在于 AI 系统与 AI 算法的结合。

颜水成新加坡工程院院士、IEEE Fellow、昆仑万维荣誉顾问

基于对大模型基础研究的深度思考，颜水成认为 AI 研究应该聚焦在两个关键维度：一是从 AI 系统维度将 AI 理解为“Almighty Intelligence”（万能智能），二是从 AI 算法维度将其视为“Affordable Intelligence”（可负担智能）。

在 AI 系统研究方面，颜水成强调“研究即产品”的理念。他认为大模型研究应该包括语言、多模态、音乐、音频、视频和 3D 等多个维度，并以实际应用为导向。这种研究思路已经在多个领域展现出潜力，比如利用分层推理提升对话系统的能力，以及在音乐生成和短剧制作等领域的创新应用。特别值得注意的是，在短剧创作领域，颜水成认为这可能是 AI 最具想象力的应用空间。他详细介绍了从剧本创作、角色生成、场景制作到最终视频合成的完整工作流程。“虽然目前的效果还不够完美，但我相信在接下来半年到一年时间里，随着各类基础模型的进步，特别是在可控视频生成方面的突破，这个领域会有重大进展。”

在算法研究方面，颜水成指出，要让 AI 真正成为“可负担的智能”(Affordable Intelligence)，算法创新至关重要。在很多数学家眼中，机器学习工程师主要做三件事——逼近误差（网络架构）、估计误差（数据/损失函数）和优化误差（参数优化器）。颜水成透露其个人主要更想专注于第一和第三个维度上的研究上，其背后原因是考虑到目前训练一个大模型动辄需要 6500 万美元，如果能在训练或推理效率上提升 20-50%，就能产生巨大的经济和环境效益。

在具体的算法创新上，颜水成重点介绍了 Skywork AI 在 MoE（专家混合）系统优化上的突破。通过引入“零计算专家”（Zero-computation Experts）的概念，他们成功将 MoE 的计算效率提升了一倍，同时保持甚至提升了模型性能。“我们不仅在 FFN 层实现了这一突破，还将 MoE 思路成功应用到了注意力机制中，创造了 Mixture-of-Head Attention 结构。”

在优化器方面，他们开发的新型优化器在各类架构上都展现出了显著优势，能在继续训练场景下实现 1.5-2 倍的加速。颜水成特别提到了一个有趣的发现：在不同层次的网络中，底层更依赖于困难样本的梯度，而高层则更依赖于简单样本的梯度。这一发现启发了新的训练策略，有望进一步提升模型性能。

“在中国，特别是在训练加速这个领域的研究还比较少，大家都不太愿意投入。” 颜水成指出，“但这恰恰是一个极其重要的方向。从长远来看，只有让 AI 变得更高效、更经济，才能真正实现 AI 的广泛应用，特别是在端侧设备上的智能化转型。”

何恩培：基于双网络架构的数推分离大模型探索与实践

未来的大模型是否有可能在保持高性能的同时，而又让客户能够安全可控和经济适用？这是一个值得深思的问题。传神语联创始人兼董事长何恩培以《基于双网络架构的数推分离大模型探索与实践》为题，首次对外分享了传神在大模型领域的独特探索。他们开发的大模型“任度”是全球首个通过双网络架构实现数推分离的大模型，形成了“双脑”联合推理的独特优势。传神是全球大模型领域第一家实现数推分离技术路线的人工智能企业，也是中国人工智能在行业内的重大突破。

何恩培传神语联创始人兼董事长

何恩培表示，任度幸运地走通了一条独特的路。它从未从主流大模型发展遇到的问题中寻找突破机会，而是自公司诞生起就走在这条路上，一走，就是近 20 年。

回看过去，从 1999 年开始，传神就选择了完全自主研发的道路。在当时开源框架并不流行的背景下，他们开发了自己的神经网络库 zANN。谈及背后原因，何恩培坦言，“这不是因为我们预见到今天的科技形势，而是为了提高开发效率。2015-2016 年主流开源框架出现时，我们也讨论过是否转向开源，但最终选择了继续坚持自主研发。现在看来，这个选择让我们获得了更大的创新空间。就像盖房子，如果地基是别人的，想要改变就会受到很多限制。”

至于后来任度为何会走数推分离路线，何恩培表示，“2021 年我们做法律 AI 助手时遇到过一个问题 ——每天都有新的判例数据产生，不可能每次都重新训练整个模型。”因此，他们基于 moH（混合商）架构实现数推分离，推出了“任度”，以此解决大模型领域如何高效处理增量数据这一难题。

双网络架构的核心在于将推理训练和数据处理分开。推理网络负责思维和决策，数据学习网络负责知识获取和存储，两个网络通过共享嵌入层和中间表示层进行协同，形成了一种类似于“主脑”与“辅脑”的高效配合模式，支持独立训练和联合推理。这样的设计不仅避免了额外计算资源的需求和专业人才的大量投入，还能有效防止模型能力随时间退化，同时确保数据的安全性和隐私性，无需客户数据离场训练。

值得一提的是，传神“根原创”任度大模型为双网络数推分离这一创新性架构筑牢了基座。其最大意义在于，从底层算法框架到上层应用都是全技术栈自主研发的成果，未使用任何开源代码和框架，有力保障了技术自主与安全可控。

何恩培特别提到，今年 7 月，他们请中国信通院进行了评测，确认任度是一个“零开源依赖”的大模型 —— 无主流开源大模型依赖、无主流开源机器学习框架依赖、无第三方开源库依赖、无开源许可证依赖、无已知开源安全漏洞风险。在当前复杂的国际形势下，这种技术自主性变得尤为重要。

“开源很重要，可以快速解决当下问题，让我们当下获得更好，但一定要拿出一定资源支持自主的原始创新——根原创，因为自主可控的根原创，是为了未来我们可以长久的活的更好更安全。”何恩培表示，“我相信中国有很多像我们这样的团队在默默耕耘，他们或许还没有站出来，但终将会成为中国 AI 技术发展的重要力量。”

张俊林：OpenAI o1 技术原理解析

两个月前，OpenAI 推出了其最新力作——OpenAI o1，迅速成为了科技界的热点话题。OpenAI o1 最大的亮点在于其具备了类似人类的推理能力，这意味着它能够在处理复杂问题时，不仅仅是简单地匹配已知的数据模式，而是能够在模型内部执行一个类似于“思考”的过程。这种能力让 o1 在物理、数学、生物和化学等多个学科领域的表现力都不错。关于 OpenAI o1 是如何实现这一突破的，新浪微博首席科学家和新技术研发负责人张俊林进行了深入的技术解析，揭示了 o1 模型背后的技术原理和创新。

张俊林新浪微博首席科学家、新技术研发负责人

张俊林首先从认知科学角度解释了 o1 的重要性。人类大脑有两种思考模式：快思考（系统 1）和慢思考（系统 2）。传统大语言模型如 GPT-4 类似于系统 1，只能进行快速、直觉式的反应。“它一旦输出某个 token 就不会回头修正，即使发现错误也只能用更多的错误来掩盖，这也是大模型产生「幻觉」的重要原因之一。” 而 o1 则通过强化学习实现了类似系统 2 的深度思考能力。

在奥林匹克数学等高难度测试中，o1 展现出了远超 GPT-4o 的表现。“最新版本在奥数测试中能达到 56 分，而此前的模型只有 13 分左右。这种在复杂逻辑推理方面的巨大提升，将为 Coding 等复杂应用带来革命性变化”，张俊林分析道。更重要的是，o1 开创了强化学习 Scaling Law 的新范式。传统的 Scaling Law 认为只要增加模型规模、数据量和算力，模型性能就会持续提升。“但这条路已经接近极限，目前最大的训练数据集也就是 18T 数据，想要获得更多高质量数据越来越困难。” 张俊林指出，o1 通过在推理阶段引入强化学习，开辟了能力提升的新路径。同时，o1 也为小模型发展扫清了障碍。

在探讨 o1 的技术架构时，张俊林认为它很可能借鉴了 AlphaZero 的思路。“在 o1 发布后，OpenAI 团队多次提到他们一直在思考如何将 AlphaZero 的搜索模式引入语言模型。” 他分析，o1 可能采用了连续状态空间（输入问题和已生成的思考过程）配合离散行为空间（各种思考模式）的设计，通过强化学习来选择最优的思考路径。

“最关键的创新在于如何将强化学习与语言模型结合”，张俊林解释说，“强化学习负责在高层次上选择思考策略，而语言模型则负责具体的 Hidden COT 对应Token的生成。这种结合让模型既能进行系统性的规划，又保持了语言表达的流畅性。”

对于 o1 是否由单个模型构成的争议，张俊林倾向于认为是多模型协同的结果，最小构成可能是主模型+COT 摘要模型，也可能是主模型+辅助模型池子+COT 摘要模型。

如今 o1 模型这种以强化学习与 LLM 融合构造的新型架构模式已经开始改变整个行业。张俊林以搜索引擎为例，“在 o1 之后，各大搜索引擎纷纷推出'深度搜索'功能，通过将复杂问题分解为多个子问题，对多次搜索结果通过逻辑推理来整合最终答案，这本质上就是借鉴了 o1 的思路。”

大模型的未来之道

在本次主会压轴的圆桌对话环节中，CSDN 高级副总裁李建忠、Codeplay 技术副总裁 Michael Wong、传神语联副总裁蔺伟、新浪微博首席科学家和新技术研发负责人张俊林在 CSDN &《新程序员》执行总编唐小引的主持下，围绕“大模型的未来之道”展开深入探讨，共同探索大模型技术的发展方向与挑战。

张俊林直言，当前大模型的幻觉问题并未得到根本性解决。他分析说，幻觉的来源非常复杂：“一种可能是模型内部知道答案却没有输出，另一种可能是根本就没有学到这个知识。” 虽然业界普遍通过 RAG 的方式来应对这个问题，但这只是应用层面的缓解方案。“为什么说 GPT-4 会产生幻觉？因为一旦它输错了一个点，后面就会产生更多错误去让整体看起来更合理，这也是幻觉产生的原因之一。这是个非常难解决的问题，目前并没有被根本解决。因为幻觉的来源多种多样，很难用统一的方式把所有问题都解决。”

在谈到大模型逻辑推理能力的提升时，张俊林强调了预训练和 inference 阶段推理的相互促进关系。当前的一大趋势是在预训练阶段加入大量代码、数学或科学论文来增强模型的逻辑能力。而谈到 o1 模型带来的影响，他预测未来算力资源分配将发生显著变化：“真正从头做大规模训练的公司会越来越少，因为投入的资源是巨量的，而更多算力资源会投向模型在线推理阶段。” 展望 2024 年，他认为头部公司如 OpenAI、Google、Anthropic 都会推出新一代大模型，“虽然可能不会带来像 GPT-4 对 GPT-3 那么大的提升，但效果仍会出奇地好。”

蔺伟分享了传神选择零开源依赖路线的深层思考。“这取决于你是否有主动选择的机会，还是被动选择，” 他开门见山表示，这一战略选择得益于公司大模型团队近 20 年来作为技术极客和技术自信的持续探索。而在蔺伟看来，OpenAI 的技术发展路线特别值得关注：“OpenAI 走了一条演绎归纳法的路，而大部分公司是通过应用来驱动需求的归纳演绎法。OpenAI 选择在没有大量应用的年代，通过演绎方式去推导第一性原理，这更适合科学技术的发展。”

在讨论 Scaling Law 时，蔺伟提出了一个生动的比喻：“假设一个手机预装了全球的 App，它的成本大概是几十万一台。对用户来说，拿到手第一件事就是删掉不需要的 App。” 他认为，现在的集中式预训练就像这样，成本高昂且实用性不足。相反，更理想的方式是“把预训练数据从十几个 TB 减少到 10% 甚至更低，并且到达合格推理能力后再通过模型的数据实时学习能力学习客户需要的更新数据。” 放眼未来，蔺伟认为大模型会经历类似计算机发展的历程：“从集中式的大型机过渡到 Unix 小型机、PC S 服务器，再到个人电脑和手机、传感器，未来基于实时学习能力的分布式训练模式应该会成为主流。”

李建忠立足技术演进的视角，对大模型的发展提出了独到见解。他认为，现阶段大模型主要在生成式 AI 领域表现出色，但随着推理能力的提升，将开始在更多确定性的执行场景发挥作用。“推理能力实际上在 o1 模型之前是比较弱的，”他解释道，“所以在很多实际应用中，大家通常只把它用于生成性任务。但一旦涉及决策、医疗、法律这些严肃的场景，就会发现推理不足会带来很多问题。”

关于扩展法则（Scaling Law），李建忠认为它作为一个已经被各方验证的规律，其正确性是毋庸置疑的。关键在于其支撑条件：“算法、算力、数据这三个支撑条件中，互联网领域的数据已经接近枯竭，但人类生活中还有大量动态的、实时的环境交互数据未被充分利用。” 他特别举例说明：“就像特斯拉 FSD，每天有几多万辆车在全球训练，这种数据的反馈为整个预训练提出了新的改进要求。” 展望未来，他做出了明确的预测：“包括推理侧的成熟、预训练分布式以及实时数据的接入，这些基础设施在 2030 年左右会达到当年移动互联网的成熟度。就像移动互联网从 2007 年 iPhone/Android 发布到 2015 年真正爆发一样，大模型也需要这样一个基础设施完善的过程。”

Michael Wong 带来了他对软硬件生态系统的前瞻远见。“令人惊讶的是，Scaling Law 在相当长时间内都是正确的，但现在可能已经趋于平稳，”他开篇点明，“这标志着我们已经达到了通用预训练模型的里程碑，下一个里程碑将需要更专业的硬件。” 在硬件发展趋势上，他预见了激烈的竞争格局：“你们已经看到了张量处理单元（TPU）、数据处理单元和特定于 AI 的芯片的出现，这将推动像英特尔、AMD、英伟达这样的传统公司，以及 Cerebras、Graphcore、TensorTrend 这样的新兴参与者之间的竞争。也许有一天这些新兴参与者会取代大公司，这正是为什么大公司都在积极寻求合作。” 能源效率问题也是他特别关注的焦点。“人们已经在谈论使用核电站为数据中心供电，” Michael Wong 指出，“虽然现在对能耗的估算存在争议，但未来能源必然会成为一个巨大的约束因素。”

在软件生态方面，Micheal Wong 预测将出现专门的 AI 编程语言，并指出一个有趣的现象：“AI 科学家们正在解决编译器工程师几十年来一直在处理的问题，比如批处理、低延迟、缓存等。” 他以交通系统为例形象地阐释了软件基础设施的未来：“许多不同的交通网络由不同运营商管理，它们必须协同工作。众多的 AI 框架也必须像这样学会相互沟通。这可以通过标准化实现，或者开发能在不同框架间进行翻译的 AI 语言。”

精彩花絮，现场参会者络绎不绝

在会场之外的展厅中，快递100、人民邮电出版社异步社区、电子工业出版社博文视点、清华大学出版社、机械工业出版社、人民邮电出版社图灵文化等合作伙伴展位吸引了众多参会者的目光。参观者们兴趣盎然地与各展商交流互动，深入了解各项创新成果，现场热闹非凡！

至此，全球机器学习技术大会首日的技术盛宴圆满落幕。来自学术界和产业界的专家学者为我们带来了对大模型技术发展的深刻洞察，从技术演进到工程实践，从理论突破到产业落地，为与会者呈现了一场高水准的技术分享。

明天，四大分论坛同步进行，大会将继续围绕大模型应用落地、多模态、视频生成、代码生成等前沿议题展开探讨，更多技术创新与实践经验等待各位见证，敬请期待！

最后，还有一则好消息：ML-Summit 全球机器学习技术大会「云会员」重磅来袭！云会员将通过线上线下的多种互动渠道，与全球顶尖的 AI 专家们交流、学习与成长。无论您身处何地，云会员计划都将为您打开通往知识与资源宝库的大门。