郭毅可｜关于人工智能大模型发展的思考与展望|人工智能|原理|大模型|算法|郭毅可

作者简介

郭毅可，香港科技大学首席副校长、英国皇家工程院院士、欧洲科学院院士、香港工程科学院院士，2023年“吴文俊人工智能杰出贡献奖”获得者。研究方向为机器学习与数据挖掘、数据科学工作流程、机器学习算法及医学大数据分析系统。主要著作有《人工智能与未来社会发展》（主编）等。

摘要

当前，大模型的发展速度日益加快，且其发展的道路和方向已成为人工智能发展的重要命题。如何让机器具有智力，成为人类自身发展的好伙伴、好帮手，是大模型发展面临的新挑战。我们认为，未来大模型将从表述内容的“搜索范式”进化到阐述论证观点的“价值范式”，建立自己的价值观。在这样的价值范式下，机器的人性化不断增强，创造力得到进一步发展，从而使幻思的能力成为合乎世界模型的有意义的创造，最终推动大模型步入“创造范式”，使人与机器的共生、共存、共创成为可能，形成崭新的社会形态。为此，我们需要建构面向未来的技术理想，对人工智能的发展及其推动人类发展进步的前景充满信心，不畏试错、大胆创新，走出一条我们自己的大模型道路。

如果大模型是一个答案，那么什么是问题

说到大模型，一个简单的理解就是把巨量的信息（如互联网上所有的文字）压缩（即编码），在这个压缩的空间里形成一个采样机制，它可以根据需要（如回答一个问题）选择一些压缩的信息，把它复原（即译码）以生成新的内容（如对问题的回答），也就是说模型的终极目标是压缩输入空间的信息，形成模型，使其可以重构并恢复原来的输入空间。对于语言而言，重构生成策略是“文字接龙”，即通过前一个词预测下一个词的方法生成句子。这样的称为自回归的预测基于“注意力”（attention）的方法来计算词与词的所有相关性，并用它来判断一个词和后一个词的生成。这个看似简单的方法，成就了ChatGPT革命性的突破！

大模型在语言上的成就也扩展到了其他的模态，如音乐、视频都能够以同样的方法生成。在图像方面，扩散模型通过对图像进行压缩编码来提取抽象图像的特征，并通过译码在压缩的空间中基于不同特征的组合，形成新的图像。在生成的过程中，对于图像元素之间相关关系的估计，使得生成的图像符合逻辑、具有意义。

这一原理并不复杂，而以这样简单的原理去实现一个机器的语言模型，使机器可以与人一样进行交流对话，却具有划时代的意义。

这种方法之所以能够成功，缘于今天我们可以有惊人的算力去处理天下所有的数据。今天的计算机可以读遍世界上所有的文字，把它压缩成一个万亿参数的模型，这是一个伟大的成就。而这样的模型可以从海量的文字里面，总结出所有词与词的关系，更是一种不可思议的能力。

机器走到今天，具有了与人相近的语言能力，用专业的话说就是机器具有了与人相近的语言模型，这已经是不争的事实。机器可以如人般回答问题，让人从回答中分辨不出机器和人，也就是说今天的计算机通过了当年图灵为回答“机器能思维吗”这个问题而设计的“图灵测试”。人工智能进入了“后图灵时代”。

今天我们都在做大模型，有开源的、闭源的，有语言的，还有各种其他模态的。在大模型的追逐中有一套测试标准，如同人的智商测试，大家都在以这样的测试来衡量模型的水平，追求一个SOTA（即目前的最好结果）。仿佛人工智能的发展已经找到了一个答案、一个万能的方法，剩下的工作就是用更多的数据、更强的算力把模型做得更大。

强化学习的鼻祖萨顿（Richard Sutton）2019年发表了一篇博文——《苦涩的教训》（The Bitter Lesson），指出在人工智能研究中如能找到一个通用的方法，利用大算力不断拓展其能力，往往是最有效的研究途径。这篇博文被广泛引用，被称之为人工智能学者必学的材料，这个论断也被称之为“扩展律”（Scaling Law）。从这个论断出发，大模型的发展主要是依赖大算力和大数据，这也是目前大家普遍遵循的一条技术路线。

然而，我们真的已经为人工智能的发展找到了大模型这样一个完美的答案了吗？我们知道，科学发展每一个阶段、每一个里程碑的完成都不只是给出一个答案，而是提出一系列新的问题，这些新的问题恰恰是科学继续发展的内在推动力。那么，大模型时代，提出的问题又是什么呢？

作为投资者，他们关心的问题是大模型的价值到底是什么？如何实现它的商业利益？作为哲学家，他们关心的问题是机器思维和人类思维之间的异同以及由此带来的与社会发展的关系。哲学家维特根斯坦说过，语言确定了思维的边界。也就是说今天的机器有了语言，所以它不仅有了思维的表达，也有了思维的能力，那么，这样的能力将如何进化，其发展对人类和社会又有多大的冲击和影响？这是人工智能发展与治理需要思考的大问题。作为计算机科学家，在为技术不断进步而惊喜的时候，我们也在总结过去的经验和探索未来的方向。今天大模型给出的并不是一个答案，而是一系列新的问题——让机器具有智力，成为人类自身发展的好伙伴、好帮手是一个漫长的征程。对这些新问题的理解和思考有助于我们规划好研究的方向，避免人云亦云、重复劳动，从而有效地进行创新。下面，笔者将从算力、算料（数据）和算法三要素的角度来谈一些看法。

关于算力

大模型的训练需要巨大的算力。据称GPT-3模型训练使用了128台英伟达A100服务器（训练34天），对应640P算力；GPT-4模型训练使用了3125台英伟达A100服务器（训练90～100天），对应15625P算力。从GPT-3到GPT-4模型，参数规模增加约10倍，但用于训练的GPU数量增加了近24倍，总计算量增加了近70倍。可以想象，扩展律对应的资源需求量递增是多么的巨大。实际上，扩展律还揭示了一个令人沮丧的事实：当我们的资源投入呈线性增长的时候，性能的提升是远低于线性增长的。

巨大的算力也意味着巨大的投入。据估计，运营一台英伟达的A100服务器，一年的成本约为80万元。对于一个拥有万卡的厂商，拥有1250台服务器（8卡一台服务器），一年需要1250乘以80万也就是10亿元的成本。可以想象，维护一个强大的算力中心的成本是惊人的，对于成本如此高昂的算力资源，如果不能得到满负载的利用，将会造成巨大的浪费。

因此，大模型的发展不能仅仅在扩展率的驱动下，用算力的野蛮增长来推动。算力的确是今天AI时代最根本的基础设施，但它不可能是无限的。我们必须研究高效的学习方法和策略来聪明地使用有限的计算资源。

混合专家模型。优化计算效率的一个有效的方法，是通过对模型结构和推理机制的改良，使得模型参数的增长和计算资源需求的增长呈线性而不是倍增关系，这其中一个重要的进展就是通过多个小参数模型的组合形成一个大参数量的模型，即“混合专家模型”（Mixture of Experts, MoE）。这一模型将多个不同的学习数据训练成的子模型相结合，用一种表决组合的方式形成综合的生成内容。由于这一方案在推理过程中能够根据输入数据的不同，动态地选择不同的子模型（即“专家”）进行计算，使大模型的学习和推理“稀疏化”，因而能够把大模型参数增长对算力的要求“线性化”，实现更快的响应速度。这样的策略实现了对计算效率的极大改进，而且实践证明，以这样的新方式构造的模型系统的性能与同样规模的单一模型相比并不逊色。这一结果其实并不令人惊讶，因为和人脑一样，基于神经元网络的模型在思考一个问题的过程中，实际上只有极小的一部分神经元参与了工作，所以这样“稀疏”的学习和推理策略应当是行之有效的。

高质量的数据。第二种减少对大算力依赖的重要思路，是用高质量的数据来弥补模型的规模不足。数据是人工智能的基石，数据的质量关乎人工智能发展水平，影响其安全性、可信性。高质量的数据集可以帮助模型更好地理解和捕捉不同的概念、语义和语法结构，使模型在各种任务和领域中表现出更好的泛化能力，推动大模型的价值跃迁。大模型并不是越大越好，数据也不是越多越好，真正好的大模型是参数大小适中、数据质量高。实践充分证明，面对同一个学习策略，高质量的学习数据可以大大提高模型的质量。相比一个规模更大但训练数据质量较低的模型，一个规模较小但使用高质量数据训练的模型可能表现出更高的生成质量。

持续学习。缓解算力需求的第三种重要方法是持续学习，即在不“忘记”从以前的学习中获得的知识的情况下，不断地用新的数据来更新模型，使训练的大模型有更高的生成质量。我们知道，人类具有从经验中不断复用拓展知识的能力，不仅可以将先前学到的知识和技能应用到新的环境中，还可以将它们作为以后学习的基础。如果机器也能有这样的持续学习机制，我们就可以避免每次在进化一个大模型时，在包含新旧数据这一新的更大数据集的基础上对整个模型进行重新训练，从而改善大模型训练对算力的需求。但是，持续学习不是一件容易的事情，模型所学到的知识与规律存储在模型参数中，当模型在新数据集上学习时，网络中的参数会被更新，而旧任务的知识则会被覆盖，导致更新后的模型在旧任务上的表现出现“灾难性的下降”，这种现象被称为“灾难性遗忘”。如何使机器在持续学习中克服这一问题，是一个很大的研究课题。所以，我们要看到，今天机器学习的机制还是很初级的，甚至不具备人类拥有的基本认知功能，比如“记忆”。在这样一个功能欠缺的机制上，通过扩展律，用规模来弥补机制的缺陷，应该不是一个长远之计。我相信，对人脑这样一个经过几百万年的进化而形成的高效学习机制的研究和认识，一定会使我们发展出高效的机器学习机制，使算力不再成为大模型发展的瓶颈。

关于数据

扩展律的另一个结论是，通过大量不同的数据来训练高容量的大模型，较之于通过巧妙的方法、用精选的小数据来微调一个现成的模型，更能捕捉数据的本质特征，从而找到数据的共性（即泛化能力），提高生成能力。

现在业界有一个普遍的认识，就是目前所有的数据已经快被用完，我们即将面临“数据危机”。这个看法有一定的道理，但事实是，被我们用完的数据并不是消失了，而是被压缩成了一个强大的模型。何谓压缩？压缩就是找出数据中的规律性、共性，并用更简洁的方式予以表示，以减少冗余信息。而当我们成功地对数据进行压缩时，就意味着我们已经捕捉到了数据的本质特征和规律，所得到的模型就有了优秀的泛化和生成能力。假如我们有了一个非常好的语言模型，那么这样的语言模型同时也构成了一个最强大的数据生成器，可以生成所有我们想讲的和能讲的话。如此一来，更有意义的工作就不再是努力寻找新的数据，而是研究如何从大模型中生成我们需要的数据，并在这样的数据之上以有限的算力更为有效地构造一个又一个精致的、满足特定需要的模型。

这听起来仿佛是一个轮回：从数据到模型又从模型生成数据，但这样的轮回可以实现层次性的上升：新的数据和信息的质量、语言的结构更为高级，从而使得新的模型在层次上有了质的飞跃。比如我们要求新的语言模型可以懂得幽默、富有感情，可以写出笑话，这不是一个简单的任务。美国著名作家、语言学家勒古恩（Ursula K. Le Guin）指出，词语是一种事件，具有作用力，能够改变事物。它们不仅能够改变说话者和聆听者，还能在双方之间传递能量，传递理解或情感，并对其进行放大。然而，当词语被剥离了“人性”，输入到无感情的机器中，被用作不具有启迪功能的信息代价物时，会发生什么呢？这正是今天的大模型技术面临的一个挑战。

要在机器生成的语言中注入“人性”，就要求我们在模型中注入能够用语言表达的人类文明凝练的精神智慧和文化底蕴，也就是说我们在训练模型时，对语言数据的压缩不仅要捕捉低阶的语义特征，还要捕捉高阶的语境、语用特征，这对语言模型的学习提出了新的要求。为了把这样的层次性表达出来，也许，我们未来的压缩编码空间将不再是简单的向量空间了。

进而言之，对新数据合成的要求也将不再满足于简单地按分布采样，数据的生成不再是越多越好，而是要有选择性，强调一定条件下的数据生成、有结构的数据生成，即数据的产生和采集是结构化的，而不是如现在这般——大模型的数据采集用一个数据元（token）统一组织——进行线性采集和顺序生成了。

依笔者之见，用于学习的数据是取之不尽、用之不竭的。数据是客观世界的一种体现和表达，如果把模型看成是机器通过数据对客观世界进行理解，那么数据和模型的关系便符合毛泽东同志在“实践论”中对辩证唯物主义认识论的阐述：“实践、认识、再实践、再认识，这种形式，循环往复以至无穷，而实践和认识之每一循环的内容，都比较地进到了高一级的程度。这就是辩证唯物论的全部认识论，这就是辩证唯物论的知行统一观”。就大模型而言，从数据到模型体现了实践，而从模型到数据反映了认识。我们不必担心数据的穷尽，而应该期待越来越有人性的大模型的到来。

关于算法

未来的大模型如何发展？这是今天每一个人工智能研究者都要认真思考的问题。如上文所言，以自回归为基础的大模型的研究取得了许多非常振奋人心的成果，存在技术改进的可能性空间和广阔的开拓潜力，特别是在学习效率的提高、思维链的增强与合成数据的深度、精度和广度等方面大有可为。此外，把大模型与其他的功能调用（functional call）的业务工作流相结合，把语言作为工作流的驱动机制，可以灵活地组织各种功能，形成一个大商业语言模型（Large Business Language Model）。这也是大模型算法研究上一个非常有前景的方向。这里我想谈一下对生成式人工智能算法的一些根本性问题。

基于自回归的生成模型的局限性。基于自回归的生成模型的基本思路是线性地依顺序重构输入空间，所以，让模型具有补全一句话、填满一张图的能力是有效的学习方法，目的都是使模型具有生成力。但是，这样的模型也有其内在缺陷。

从学习的角度而言，以重构世界为目标的学习并不等同于可以理解世界。正如你学会了重新拼装一架飞机，并不等于你理解飞行的原理，也不一定确保你能够重新设计出一架新的飞机。所以，重构只是学习的第一步，理解所构造的世界才是关键而艰难的下一步。这个挑战在目前的视频生成研究中已经显示得很清楚了。我们可以把视频生成和语言生成等同起来，把视频看成是图像的序列语言，基于同样的自回归方法让机器来重构，从大量的视频数据中学会图像序列的生成。这就要求在一个连续的时间序列中准确地生成每一幅图像上的各种细节，并在这个时间段中保持每一幅图像的一致性（如不变的建筑背景、符合运动规律的车流等），这是非常困难的，因为重构一个动态连续变化的场景的复杂程度要比重构一段静态的文字表达高得多。因此笔者认为，用自回归的方法生成视频，生成内容细节有限的动画是比较现实的，但对于高清的、有真实场景细节的视频生成，它可能不是一条有效的途径。

从“搜索范式”到“价值范式”。如何把握大模型未来的发展方向？关于这个命题有许多讨论，例如从技术、哲学、认知科学等角度。下面，笔者将从大模型使用模式的角度来谈谈这个问题。

今天，大模型支持人类和机器的“人问机答”交流模式，这样的交流是简单的，我们可以把它看成是搜索的一个高级版，生成的答案可以视为检索内容的一个总结。所以，今天大模型的学习和推理支持的是“搜索范式”。

事实上，我们使用的大模型搜索范式并不是唯一的方式。毋宁视其为一种初级的生成能力，因为它只是在词语相关性的指导下，对学过的语言进行合乎统计规律的重构。这样的自回归方法还不具有人类语言中的类比、联想、层次推理等各种能力。在未来大模型的研究中，我们要超越自回归的思想，创造出更高级的语言能力，这将极大地丰富大模型的应用方式，同时这也将是大模型算法研究中一个有意义的方向。

从“人问机答”的搜索范式出发，对大模型的下一个要求就是，不仅能回答问题，而且要有讨论和争辩的能力。在人工智能领域，对于思辩（argumentation）的研究一直是一个重要的领域，如何让机器模型具有思辨的能力，可以与人进行讨论，即不仅能回答问题，还能提出问题，并对人的回答作出判断、评价和回应。这样的思辨能力的实现要求模型的思维不仅有演绎的能力，而且要有一个内在的“世界模型”，从而能够对“回答”进行判断和论证，这将使模型从“搜索范式”进化到一个以阐述观点为目标的“价值范式”。这样的世界模型的建立对于算法来说，要求其不仅具有学习和推理的能力，更需要有记忆、行为目标的建立，价值的衡量与判断以及行为控制的能力。在这样的范式下，学习的方式和推理的模式也会发生重大的改变，将不再可以被归结为“预测下一个有可能的数据元”这么简单的学习和生成模式了。实际上，这样的向“价值范式”的进化，也是实现我们今天常讲的“具身智能”的基础。具身智能强调智能体通过与环境的交互获取信息、理解问题、作出决策并实现行动，从而产生智能行为和适应性。有了支持“价值范式”的大模型，我们才可以有效地实现对环境的理解并通过其基于世界模型的价值衡量来作出决策、实现行动。

研究“创造范式”，使机器具有人类灵性。大模型的发展是从数据学习模型、模型生成数据的循环往复中，不断从一个层次迈向更高的层次。不管是注入情感，还是融入思辨，每一层的循环都是在语言模型中添加人性的理解，使我们在语言模型的建立上不断地逼近人类的语言和思维，让机器的语言模式逐渐与人类相一致。早在2013年，本轮人工智能浪潮来临前夕，美国上映了一部讲述在不远的未来人与人工智能机器相爱的科幻爱情电影《她》（Her）。主人公西奥多是一位信件撰写人，能写出感人肺腑的信件。他刚结束与妻子的婚姻，还没走出痛苦的阴影。一次偶然的机会让他接触到最新的人工智能系统OS1，它的化身萨曼莎拥有迷人的声线，温柔体贴而又幽默风趣。西奥多与萨曼莎很快发现他们是如此投缘，而且存在对彼此的需求与欲望，人机友谊最终发展为一段奇异爱情。这个科幻片生动地展示了人类和一个有语言能力的机器之间的关系，也对后图灵时代语言模型的发展作了一个形象的描述：机器的语言模型会与人无缝交流，会理解我们的语言、感情和语境，其与我们的交流也会越来越有“人性”。赋予机器模型以人性的光辉，就是研究大模型的终极目标。众所周知，人性最精彩的部分是创造力。因此，我们应该研究大模型的“创造范式”，让机器也具有人类的灵性。

2022年由AI生成的画作——《空间歌剧院》（Théâtre D'opéra Spatial）在美国科罗拉多州博览会的“数字艺术”类别美术比赛中获得第一名。该画作的创作者是39岁的美国游戏设计师杰森·艾伦（Jason Allen），他使用文本生成图像程序Midjourney，经过近千次调整、耗费近三百个小时进行修改完善，绘成了这个作品。Midjourney根据用户的文字描述生成逼真的图像，每次创作耗时约一分钟。在创作者给定一个对歌剧院和天堂的描述之后，机器凭借自己对天堂的理解生成了一幅作品。在这个作品中，我们看到了机器与人类对天堂幻想的共同之处，但同时机器又赋予它独特的想象力，画出了超越习惯性思维的天堂。对于机器的这种能力，我们通常称之为“幻思”（hallucinations）。

在文本生成中，这样的幻思被认为是个严重的问题，是模型要克服的“毛病”，甚至常常被视为“一本正经的胡说八道”。之所以对其有这样的看法，正是出于我们对大模型搜索范式的习惯性理解和使用。在搜索范式下，内容的生成常常是有事实依据的，与事实相符与否是衡量内容质量的标准，不然就是“胡说八道”；但是如果我们走出传统的大模型搜索范式的思维，把它看成是一个有创作能力的生成系统，那么幻思就是一个非常重要的能力了。以笔者团队正在开发的一个生成系统为例，我们给系统提供几幅照片或几幅图画后，机器可以生动地写出一篇与提供的图片相匹配的散文。在这样的创作中，重要的不是与事实的一致性，而是内容与所给出图片的意境相吻合，换句话说，这样的吻合度就是我们要求的“一本正经”。只要符合逻辑，就不会对其有与事实相符的要求；只要不违背常识、不违背逻辑，就不会对其有“胡说八道”的责难。如此一来，就有了大模型使用的“创造范式”。对于在创造范式下的大模型而言，重要的是研究各种幻思的形式和性质，以及衡量各种幻思的创造性、启发性和其他特性的标准及评价方法。以笔者团队正在设计的用大模型来创作童话的工作为例，大模型的幻思是一个非常重要的能力，正是对幻思能力的合理开发，才能够为童话创造出具有启迪性和趣味性的内容。

对大模型发展的未来展望

作为总结，我想回顾一下图灵关于机器智能的思考。图灵在1950年发表的著名论文《计算机器与智能》（Computing Machinery and Intelligence）中，提出了机器能否思维的命题，认为只要机器在对话上和人没有明显差别，就是具有智能的，此即后人所称的“图灵测试”。今天的大模型已经初步具有了这样的能力，可以实现“人问机答”。这样看来，似乎可以说我们有了问题的答案。但是，人的语言能力远不只是问答，我们的前路还很长。图灵也在他的文章中规划了一条道路，认为可以编制一个“儿童程序”，对其进行教育，以使其达到成人的智力水平。但在笔者看来，鉴于人类教育和机器学习的“两极性”，这条路似乎要反着走了。

如图1所示，我们对于机器的教育和对于人类的教育实践似乎正好是相反的。对人类而言，我们在幼儿教育阶段，不断地启发孩子对新事物的好奇，从而建立起孩子对生活和社会的常识；小学教育的目标主要不是知识积累，而是价值观培养，让孩子从各方面学到社会上的对与错、真与假、善与恶；中学教育开始建立知识体系的基础；大学教育才是专门化的知识培养。有了这些，一个人才能在社会实践中接受社会的再教育，建立自己的知识体系，形成成人智力。而机器学习的过程正好是反过来的。我们一开始就喂给了机器这个世界的全部数据，把它压缩成一个通用的预训练模型，理论上，它可以讲所有符合语言特性的话；第二步，才开始对这样的一个预训练模型进行微调，学习各个领域的知识（微调）和人类的表达方式（对齐），使它符合我们在各种主题下交流的需要；接下来，我们才发现要让机器有判断的能力，就必须让机器学习对与错的判别，使它产生价值观；直到最后，我们希望机器从大量的学习中，能够总结出一个世界模型，作为自己的常识，并在这样的基础上，能够对这个世界产生创造力。

来源：作者自制

图1 人类教育和机器学习的两极性

正是基于这样的对人机学习两极性的理解，我们对大模型发展的未来作了这样的展望：一个可以生成语言的大模型会从表述内容的搜索范式进化到阐述论证观点的价值范式，它可以在对世界的理解下与人交流，这样的理解也会在交流中不断进化，从而使得机器学会建立自己的价值观。而人工智能治理的一个根本性任务是努力保证这样的价值观符合人类进步的要求。在这样的价值范式下，机器的人性化会不断增强，创造力会得到进一步发展，从而使其幻思的能力成为合乎世界模型的有意义的创造方式。这样的创造方式会使人与机器的共生、共存、共创成为可能，形成一个崭新的社会形态。而人工智能治理的另一个根本性的任务就是为这样的社会建立新的秩序，使一个对世界有理解、有价值、有判断的大模型作为人脑的延伸，可以有其行为选择的正确原则和机制，这样我们讲的具身智能才会真正到来，在一个人机二元的社会里为我们服务。

2024年5月14日，美国OpenAI宣布了全能大模型GPT-4o，它在大模型的问答能力方面，加入了视讯功能，可以感知语言环境，进行实时、自然、满足语境的语音对话，并且能捕捉情绪、模拟情绪，这是大模型向人性化前进的重要一步。当前，大模型发展的速度越来越快，而对其发展道路和方向的把握尤为重要。我们必须建构自己的技术理想，对人工智能的发展，及其推动人类发展进步的前景充满信心，不畏试错、大胆创新，走出一条我们自己的大模型道路。

文章来源：《学术前沿》杂志2024年第13期（注释从略）

原文责编：张贝

原文美编：周群英

新媒体责编：梁丽琛

声明：《学术前沿》杂志原创文章，任何单位或个人转载请回复本公众号获得授权，转载时请务必标明来源及作者。