多读书：避免成为AI算法意义上的“透明人” | 社会科学报|ai|大模型|社会科学报|算法|透明人

数字化·阅读

随着AI从通用计算转向加速计算，未来AI算法算力会指数型增强。目前来看，只有多读书，提升数据分类和范畴化能力，进而提升数据结构化和模式化能力，才能洞悉人工智能学习算法“底牌”，从而避免将来成为算法意义上的“透明人”。

原文：《多读书：破AI算法之局》

作者 |北京外国语大学外国语言研究所教授王馥芳

图片 |网络

2023年11月6日，OpenAI公司发布GPT-4Turbo大语言模型，世界就此开始“大时速”前行。如果把现实世界隐喻为一个赛场，AI“大时速”发展最终可能创构出一个全新的、人类智能无法想象的“涌现赛场”。“涌现赛场”被创构出来，真正意义上的“元宇宙”就诞生了。由此，现实世界将被迫成为“元宇宙”的基本构成性成分。面对AI大语言模型对现实世界的挑战、颠覆甚至威胁，面对AI学习算法对人类智能的挑战甚至操控，面对AI对人类经验的模仿、复刻、转写和技术性瓦解，我们做什么和怎样做才能避免沦为AI算法意义上的“透明人”？从AI学习算法规则背后的底层逻辑是认知这点来看，AI学习算法做局，多读书能破！

人工智能学习算法做局

“捉迷藏”游戏可以被看成一个隐喻：人类各种严肃意义上的意向性主体行为背后的动机，在根本上都类似于捉迷藏游戏中的寻找和发现。在过去的几十年，人类一直试图借助各种新兴技术寻找和发现人类智能的“秘钥”并将其扩展应用到机器上，从而制造出“智能机器”。从20世纪50年代开始，人类就在探寻人工智能秘笈的道路上孜孜以求。进入21世纪之后，借助新兴计算技术，研究者利用计算机以模式化人类智能的方式运行各种学习算法规则，终于在2022年11月30日发布了AI大语言模型ChatGPT（聊天生成预训练转换器）。经过不到一年时间，ChatGPT就迭代到GPT-4Turbo。2024年2月15日，OpenAI公司发布了首个以大语言模型为基础的文本视频转换生成模型Sora，可以依据文本描述生成长达六十秒的、多机位且细节逼真的视频。这意味着AI发展到达了另外一个有里程碑意义的突破点。

AI大语言模型强大的内容生成和学习能力主要源于类似进化原则的学习算法规则。根据科技巨擘的说法，大型计算机通过运行新兴计算和学习算法规则形成“数字大脑”，“数字大脑”的底层运行机制是学习算法规则，而看似非常重要的预训练数据集只是学习算法的训练材料。有AI研究者指出：AI未来的突破不在于架构规模、图形处理器（GPU）和数据上，而在于科学上。鉴于科学的底层机制是认知，因此AI未来的突破在认知上。

以ChatGPT为代表的AI大语言模型创生之后，AI系统利用其超强的学习算法成功地对人类的各种行为和心理过程进行模式化，从而使得其在整体智能方面超越了一般意义上的个体。参照AI技术在过去十年的指数型发展态势，十年后AI大语言模型的指数型迭代将导致很多人成为算法意义上的“透明人”!

根据以色列历史学家尤瓦尔·赫拉利在《未来简史》中的观点，未来计算机算法将取代人类的自由意志而成为人类真正的主宰。算法将在未来主宰人类，人类将沦为AI算法的“透明人”，何以可能？在与一位国外科技巨擘的对谈中，我国一家知名互联网企业创始人信心满满地说道：“人工智能再怎么聪明也是人创造的，它只会是人类的玩具。”这一观点的谬误在于，人造物实质分为两类：一类是审美意义上的人造物，其本质上是人类的玩具或者工具；另一类是发现意义上的人造物，其本质上具有思想主体性，可以将其看成“非人化”主体。

以语言符号系统为例，虽然语言是人造物，但语言符号系统背后的底层逻辑并非人类发明，而是发现意义上的认知建构和学习规则。因基于发现意义上的认知建构和学习规则所构建的系统具有内在的“涌现”属性，故语言绝不仅仅是人类表达的工具。事实上，语言在根本上具有思想主体性。语言哲学家海德格尔的“语言道说论”明确指出：“人只是由于他应合于语言才说，是语言说，语言之说在所说中为我们而说。”

如语言一样，AI大语言模型虽然是人类创造的，但其背后的底层逻辑并非人类发明，而是自然规律意义上的类似进化原则的学习算法规则。亚马逊创始人Jeff Bezos在最近一次访谈中指出，AI不是一种发明，更像一种发现：各种AI大语言模型并非真正的工程对象。言下之意是，就像语言一样，人类无法真正完全掌控人工智能。在人工智能与人类智能的角力游戏中，算法意义上的“透明人”如何破局？从AI未来的突破在认知上这点来看，人工智能学习算法做局，多读书能破！

多读书：提升数据范畴化能力

自20世纪90年代中期进入互联网时代以来，传统阅读之外，利用搜索引擎进行查询式阅读开始盛行，人类固有的阅读经验受到挑战。“一键即得”的操作使得读书变得前所未有地直观和便捷。但从严格意义上来说，查询式阅读并非真正的阅读，其本质上是对各种碎片化讯息的接收和快速处理。若持续不断地接收大量杂糅的碎片化讯息，却无法对其进行必要的结构化和理论化处理，接收者势必成为信息操控的客体而逐渐丧失其思维主体性。一个丧失思维主体性的人，在学习算法为王的AI时代，势必成为算法意义上的“透明人”！大众要想避免沦为各种新兴计算技术和学习算法意义上的“透明人”，一条可行的路径是：多读书！不间断地进行学术意义上的严肃阅读和思考可以提升学习算法意义上的“不透明”度！

意图提升学习算法意义上的“不透明”度，首先要明晰学习算法规则的底层逻辑。目前，机器学习主要有两种方法：监督学习算法和无监督学习算法。前者主要是对标记的预训练数据进行分类，后者主要是对未标记的预训练数据进行结构化和模式化。由此，AI学习算法背后关涉的主要是数据分类、结构化和模式化能力。俗话说，道高一尺，魔高一丈。只有在数据分类、结构化和模式化方面超越学习算法算力的人，才能避免成为“透明人”！

分类能力实质是一种范畴化能力。数据分类问题看似简单，实质异常复杂。监督学习算法依据标记的预训练数据进行数据分类实质是最简单的一种分类。通过阅读一些专业书籍，比如认知语言学书籍，我们的分类或者范畴化能力会得到极大提升。未经专门学术训练的人一般倾向于认为，范畴化的基础是普遍特征抽取和归纳。但从理论视角出发，范畴化的基础是理论模型。若基于经典范畴理论来分类，我们断不会把人和机器归为一类：两者的基本特征全然不同，前者是有机体，后者是人造物。但若基于原型范畴理论来分类，可以把机器和人都归为“智能生物”：前者是生态智能生物，而后者是“数字”智能生物。再者，还可以将两者都归为“学习者”：前者是生态智能学习者，后者是机器“学习者”。另外，鉴于两者都有建构和改变世界的主体性潜能，还可以将其都归为“主体”：前者是认知主体，后者是人工智能主体。此外，由于两者分别具有利用生态智能和学习算法做局的能力，也可以将其都归为“做局者”。只要深度思维力足够强，分类还可进行下去。

分类和范畴化能力强，意味着能正确判断各种复杂数据/讯息之间的相关性或者不相关性。而相关性和不相关性判断能力的强弱决定着数据结构化和模式化能力的强弱。

多读书：提升数据结构化和模式化能力

较之分类和范畴化能力，数据结构化和模式化能力更具认知挑战性。数据结构化和模式化能力强，意味着能够看透各种芜杂的复杂数据/讯息背后统一的底层逻辑。要提升数据结构化和模式化能力，不但应该多读专业书籍，而且需要不断提升深度思维力。2021年，《科学》发布了125个“新科学问题”。其中，有关AI的有八个：人类智能是否有限制？可注射的抗病纳米机器人会最终成为现实吗？是否有可能创造出有知觉力的机器人？人工智能会取代人类吗？机器人或AI能够拥有人类创新性吗？量子人工智能能够模仿人类大脑吗？我们能否和计算机整合以形成一个人类-机器杂合物种？群体智能是如何涌现的？

表面上看，上述八个问题的理论内涵各不相同，所关注的论题也各异。仔细分析却发现，上述问题背后的底层逻辑具有同一性，即它们实质指向的是：AI系统是否会有“涌现性”突破？何为“涌现”？若一个复杂系统出现了不可预测的全新特征，意味着那个系统具有“涌现”能力。Anderson首次揭示了“涌现”产生的机制：“更多即不同”，即更多就会导致涌现。目前学界和科技界对ChatGPT大语言模型到底有无可能出现“涌现”潜势充满争议。否定派认为，人们实际上是把AI系统的内在大缺陷——幻觉——误认为是其“涌现”能力。但乐观派如OpenAI公司首席执行官萨姆·奥特曼指出：GPT模型的“幻觉”是一种系统特性，而非缺陷，它能让人发现一些新事物。

何以认为八个问题都剑指AI系统的“涌现性”突破？这是因为“涌现性”突破问题是AI系统未来发展的底层逻辑所在。如果假定AI系统没有“涌现性”突破，那我对第一问题给出肯定回答，对第二到第七个问题给出否定回答。我的回答背后的底层逻辑是：人类智能无疑有限制，且受到限制的人类智能无法开发出有“涌现性”突破的AI系统。而若AI系统没有“涌现性”突破，意味着人类智能有能力完全控制AI。由此，第二到第七个问题的情况不可能发生。另外，一旦否认AI系统有“涌现性”突破，那第八个问题就变得无关紧要。这是因为，就算弄清楚了群体智能的涌现机制和过程，其对AI系统的开发也无益。因为我们假定的前提是：AI系统没有“涌现性”突破。

如果假定AI系统有“涌现性”突破，那我对第一问题给出否定回答，对第二到第七个问题给出肯定回答。我的回答背后的底层逻辑是：虽然生态意义上的人类智能无疑有限制，但因人类智能能够开发出具有“涌现性”突破的AI系统，那人类智能未来就有可能和计算机整合以形成一个人类-机器杂合物种。如此一来，人类智能就没有限制了。而若人类智能没有限制且AI系统有“涌现性”突破，意味着人类智能没有能力完全控制AI。由此，第二到第七个问题的情况就会发生。另外，若承认人工智能有“涌现性”突破，那第八个问题就显得至关重要。这是因为，若弄清楚了群体智能的涌现机制和过程，就可以将其扩展应用到AI系统的开发上，以进一步增强AI系统的“涌现性”突破能力。

上面对于八个科学问题的分析和回答本质上是一种模式化分析。模式化分析的特征是：其在本质上是一种理想化的理论分析，分析结果不一定与事实完全吻合。但其为问题的系统性解答提供了一个有效的认知脚本，据此可以快速找到解决问题的统一性理论方案。

随着AI从通用计算转向加速计算，未来AI算法算力会指数型增强。目前来看，只有多读书，提升数据分类和范畴化能力，进而提升数据结构化和模式化能力，才能洞悉人工智能学习算法“底牌”，从而避免将来成为算法意义上的“透明人”！

文章为社会科学报“思想工坊”融媒体原创出品，原载于社会科学报第1900期第6版，未经允许禁止转载，文中内容仅代表作者观点，不代表本报立场。

本期责编：王立尧