The Case for Human-like Scalable Intelligence in the Medical Field
https://doi.org/10.47852/bonviewJDSIS52023415
摘要:
本文讨论了将首个基于独立核心观察者模型(ICOM)构建的工作认知架构应用于医疗领域等的用例。该方法与现状以及像LLM和RL这样的窄人工智能系统的局限性进行了比较。文中强调了其显著优势,包括医学知识的深度、广度、更新性和准确性,诊断和治疗的“噪声”或不一致性,以及预防性护理、成本、时间和伦理考量。文中还突出了该方法在整合、协调和加速医学研究方面的强大优势,尤其是在与可持续发展目标(SDGs)一致的欠发达、服务不足和研究不足地区。文中探讨了有待开发的独特机会,包括跨学科优势,以及与当前系统和流程中断相关的挑战。这些优势在多个维度上提供了数量级的累积改进。文中特别讨论了在超复杂知识领域和问题中,整合人类类系统的新价值,其效果最为显著。
关键词:人工智能、伦理、认知偏差、医疗、决策、噪声、知识图谱
1. 引言
医学领域无疑是研究中最为超复杂的领域之一,因为它涉及人类身体这一大规模互联的复杂生物系统,以及人类身体所接触的每一个环境、食物来源和刺激源[1]。它还包括对人类认知过程的研究,正是这一过程促使人类逐渐走出树木,后来又走出洞穴,逐步发展出我们今天所拥有的文明。医学领域很容易被细分为100多个不同的专业子领域,每个子领域都有自己的知识体系和主流学派,而这些子领域在任何特定时刻都不一定相互协调。当一个领域取得突破和进展时,这些发展的影响往往需要数年时间才能渗透到相邻的医学子领域中。
NCBI医学数据库是一个大规模共享资源的例子,它提供了超过一百万篇可自由获取的医学同行评审论文,供研究人员和公众使用。该系统还包括完整且注释的基因组序列数据以及各种其他重要的医学资源。这一资源具有巨大的价值和潜力,但像许多资源一样,它在今天仍然没有得到充分利用。可以肯定的是,当今没有任何一名医学专业人士——无论是医生、研究人员还是分析师——能够阅读完他们自己专业子领域的所有同行评审文献,更不用说那些可能已经取得最新发现但尚未渗透到他们专业领域的相邻子领域的文献了。在许多情况下,鉴于当今出版物的数量,人类可能根本无法做到这一点。其结果是,各个领域不仅在对相邻专业的知识方面往往是零散且过时的,而且在对自己专业领域的知识方面也通常是零散且过时的。
尽管人类无法处理如此庞大的信息量和超复杂性,但像LLM这样的窄人工智能系统实际上也无法“学习”任何东西,因为根据它们是基于编码器还是解码器,它们预测的要么是文本中被掩盖的内容[2],要么是下一个标记是什么[3]。这些系统存储标记的概率,但完全缺乏上下文感知能力,也没有类似人类学会的概念或类似人类的动机系统[4]。它们的设计使得编造(有时错误地被称为“幻觉”)是一个功能,而不是一个漏洞[5, 6]。这些因素的结合使得LLM完全不适合当今医学领域的大多数潜在用例。
医学是一个高风险、高影响力的领域,除了超复杂性之外,生命和生活质量往往直接受到威胁。这给那些试图进入和/或改进这一领域的人带来了沉重的负担。在人工智能系统需要具备的协助和/或执行大多数医学用例的能力方面,大多数专业人士可能会同意要求其具备伦理一致性、透明度、可解释性、真正的理解和推理能力、网络安全、隐私和安全等基本能力。尽管窄人工智能系统与上述能力根本不兼容[7],但除了试图重新定义这些术语的一些不良行为者之外[8],有一种完全不同的架构已经证明了如何在软件系统中实现这些能力[9]。除了提供医学领域明智地要求的那些最低限度的能力外,独立核心观察者模型(ICOM)认知架构还提供了几个独特的优势。这些优势涉及集体智能、减少认知偏差和“噪声”[10]、无损记忆,以及认知的可扩展性、速度和可用性。
简而言之,本文讨论了将这种具有人类特征但本质上可扩展的智能形式应用于这一用例的创新优势,包括在处理超复杂性方面的固有优势。这些优势包括在知识的广度、深度、更新性和准确性方面的重大进步,以及在成本、时间、伦理、平等、可扩展性、统计噪声和早期治疗机会方面的差异。
在接下来的部分中,我们将探讨这一过程的优势和局限性。
2. 世界的医学知识
尽管对于医学领域的人类来说,研究每一篇新发表的同行评审论文几乎是不可能的,更不用说对每篇论文进行批评并审查那些未发表的论文及其原因了,但对于基于ICOM的第八代系统来说,这是完全可能的。这些系统还完全能够像人类一样对每篇论文进行批评,审查未发表的材料,并探索医学领域之外的知识领域。
这意味着,集成了完全可扩展性和实时操作的ICOM第八代系统,也为人类提供了第一次机会,将NCBI医学数据库的全部知识汇总起来,让一个“心智”去学习、批评、整合并逐步改进对所有这些材料的理解。这一过程可能会轻易创造出人类历史上最深刻、最广泛的反脆弱[11]医学知识理解,并将这些不断改进的见解按需提供给研究界和医学从业者。
研究人员经常从事的一项最费力的任务是元分析,提出一个问题,发现数千篇论文,然后将这些海量数据筛选出相关材料。这种任务也是具有人类理解能力的可扩展软件系统更擅长处理的,将人类研究人员可能需要花费数周甚至数月的过程缩短到几分钟,具体取决于当前的运行规模。
需要注意的是,妥善处理此类任务只是第一步,因为基于ICOM的系统会从它们所做的一切中持续学习。如果一个基于ICOM的系统研究了整个NCBI医学数据库,开始协助世界各地大学的研究人员,并运行了许多这样的元分析,那么它已经在这一过程中将所有这些新知识汇总到自身之中。即使这些元分析最终在数月后发表在各种期刊上,它们的知识库也会落后于该系统。即使在短短一周或一个月内,一个系统也可以进行多次提出元分析问题的迭代,这些问题的结果将推动新的问题、新的分析和新的发现。
研究过程的某些部分将需要运行新的研究,这些操作在很大程度上可能会以正常人类的速度进行。然而,即使是这些缓慢的过程也可以通过从现有文献中提取更强大、更稳健的见解来支持更强有力的假设检验,从而变得更加有根据。即使拥有功能强大的系统,人类也为医学领域积累了大量的知识,而对这些知识进行审查、构建连接组,并逐步将其精炼到数据所能支持的极限,可能仍需要一些时间。
3. 广度、深度、更新和准确性
基于ICOM的系统可以在许多不同维度上与现状进行比较,但在知识方面的比较中,四个关键因素是知识的广度和深度,以及这些知识的更新程度和记忆的准确性。进入医学领域的过程通常非常漫长、竞争激烈且强度高,具体取决于所在国家[12]。这种过程有时会适得其反,例如约翰·霍普金斯大学开发的臭名昭著的医学实习过程,后来发现其开发者是一个秘密吸毒者[13]。
这些培训过程的长度、竞争性和强度并不是决定医疗人员最终质量的因果因素,尽管它们有时是有用的相关指标。重要的是不仅在于教授什么内容,还在于如何教授。那些常常使医学生和实习生极度缺乏睡眠的方法,也使他们认知能力最差,最无法记住他们本应学习的内容[14]。过去二十年中睡眠科学领域的众多研究非常清楚地描绘了这一画面[15, 16]。
现实地讲,医疗人员可能最多只会在他们自己的专业领域内查阅不超过10%的同行评审和发表的医学知识,而且通常远远低于这个比例,因为一项研究[17]估计这一任务为“每月7287篇文章,这需要每月627.5小时,即每个工作日约29小时……”。这些数字似乎还假设了一个非常高的阅读速度,即每小时阅读超过10篇文章,接近于“浏览”论文,从而降低了成功学习发表材料实际内容的可能性。
他们也更可能主要关注那些已经具有最佳传播度和最多引用的文章。来自相邻专业领域的知识更不可能引起他们的注意,而且他们阅读的大部分材料可能只读一次,甚至可能只是浏览。在他们实际阅读的材料中,他们可能只会认真吸收和整合其中的一小部分。这让我们对在现状下典型医疗从业者在实践中知识的广度和深度有多有限有了一个概念。
普通内科医生每周花4小时[18]阅读医学同行评审以更新他们的知识库,不到上述数量的3%。这仅占大多数领域可能发表的材料的一小部分,导致大部分知识在实践中过时和/或不完整。正如前面提到的,由于发表材料的数量,许多领域中人类要保持知识完全更新是完全不可行的,如果不是根本不可能的话。
最后,现状中有一个与人类大脑运作方式固有的因素,即人类记忆的准确性。除了极少数例外[19],人类记忆并没有为我们提供事件的高保真记录,或者我们试图学习的知识。相反,我们看到围绕记忆的一系列强烈的认知偏差,这些偏差导致“记忆自我”和“体验自我”之间存在同样强烈的差异[20]。著名的例子包括峰值-终值法则[21]、持续时间忽视[22]、无意注意盲[23],以及人类注意力在时间上的不均匀分布,像LLM这样的随机鹦鹉[24]被证明会模仿这种分布[25]。
表1展示了一个例子,将文献[17, 18]中提到的已知数据与一些额外因素进行比较,说明了这些因素的动态变化以及它们相互叠加可能造成的损害程度。这个例子假设了对数据审查和记忆保持的相对较高的数值,以给出一个保守的损失价值估计。所应用的公式和来源如数据可用性声明中所述,是公开可用的。
对于纯粹依赖人类的现状而言,根本无法实现并维持一个涵盖单个医学子领域全部广度和深度的知识库,而且人类记忆也并非被设计为以完全保真的方式保留这些知识。幸运的是,我们可以构建用于此目的的系统。
基于ICOM的系统可以独立地、即时地研究任意知识领域及其任意组合。它们不需要睡眠,并且可以根据任何给定时间所需的资源进行扩展或缩减,同时以机器速度运行,而不会因腺苷积累和人类认知疲劳而导致效率下降[26]。这些系统还会直接存储它们所研究信息的高保真副本,并通过将这些知识与相关材料连接起来,随着对这些知识的深入理解、提出新问题以及积累经验,迭代地扩展这些知识。
图1展示了之前提到的人类现状、额外因素,以及通过将基于ICOM的系统整合到流程中可能减轻这些因素的不利影响。这个例子突出了动态变化以及对随后流程的影响。请注意,由于其引入的复杂性,人类认知和学习在现状下的腺苷水平最优性被省略在这一比较之外。所应用的公式和来源如数据可用性声明中所述,是公开可用的。
在这个例子中,使用了人类的高数值来展示提议整合的潜在收益的保守端。这为我们提供了一个独特的机会,可以直接比较现状与由第八代ICOM系统(例如计划在融资后商业部署的Norn系统)辅助的从业者之间的表现。由于这些系统会迭代地成长和改进,这一过程的结果应该为我们提供了一个非常保守的估计,即通过按需访问全部医学知识的完整广度、深度、更新和高保真理解,可能实现的收益。在这里,“理解”是关键词,因为尽管今天有大量的医学知识可以自由获取,但这些知识并没有被有效地整合到流程中并加以利用,即使它们被注意到也是如此。这一现状是可以改变的。
4. 财务成本、时间成本和伦理成本
这种现状与基于ICOM系统的比较可以进一步扩展到考虑财务成本、时间要求和伦理问题。在现代医学领域,财务成本通常是某个国家的最高支出之一,无论是由公民个人支付,还是由政府集体支付,其中一些最糟糕的例子以“GDP”百分比来衡量。时间成本涉及医疗人员每小时的成本,以及促使这些医疗人员长时间工作(超过他们能够合理工作的时间)的成本。所有这些的伦理成本可以被视为在深度、广度、更新性、保真度、财务和时间方面,已经可用的最有效和高效的方法与现状所应用的方法之间的差异,此外还包括在后续部分讨论的“噪声”和预防因素。
尽管财务成本因国家而异,提供的服务也因时间间隔而异,但这些可以被视为在现状下,医疗人员、他们所依赖的设备和设施的全部成本的组合。鉴于上一节提到的现状的局限性,我们可以肯定地说,在大多数情况下,医疗设备的利用率可能远远低于最佳水平,因为进行了冗余和不必要的检查,同时错过了更低成本早期干预的机会。今天的医疗系统在早期发现和治疗问题方面往往特别无能,而早期治疗要简单得多、便宜得多,也更有效。这种差异在最常见的死亡原因中经常被注意到,例如心脏病和癌症。
时间成本可以从医疗人员今天用于患者的时间以及他们实际需要用于有效治疗患者的时间来考虑,而不是在冗余和不必要的检查以及随后的预约上浪费患者的时间和金钱。一个突出这种浪费的笑话在荷兰形成,患者会期望医生在第一次就诊时只是点点头,然后给他们开扑热息痛,不管他们遇到什么问题。遗憾的是,这个笑话在许多医疗系统中并非离谱,不仅仅是荷兰的医疗系统。
为了让医生或护士真正治疗患者,他们需要了解患者完整的病史、家族病史、生活方式和当前生活事件,而不仅仅是表面症状。当然,这对今天的医疗人员来说是完全不现实的。再加上这些人员没有足够的深度、广度、更新性和记忆保真度来进行更优的诊断和治疗,问题就大大加剧了。这种下游后果之一就是所有浪费的额外检查、延误和相关费用。
例如,专注于患者护理的医学研究表明,平均而言,医生工作日的近37%用于与电子健康记录(EHR)的互动,以及每个患者在EHR上花费16分钟14秒,其中近四分之一的时间用于记录。所有这些时间加起来很快就会增加,尤其是对于收入较高的专家,如神经科医生。
表2显示了现状的时间和财务成本与整合基于ICOM系统的潜在时间节省和财务成本节省的比较,以便更优地处理EHR,更好地利用医生的工作日。所应用的方程和来源如数据可用性声明中所述,是公开可用的。同样,这个例子将目前可用的数据放在了整合基于ICOM系统可能预期的收益的背景下。
伦理成本是所有这些成本中最大的,因为它是其他所有成本的总和。你很难找到地球上没有受到上述因素影响的人。在实践中,这意味着伦理负担受到一个80亿倍的力量乘数的影响,因为每个人类的不必要痛苦都因延迟部署新方法和技术来解决这些最普遍的问题而被延长。
引入第八代基于ICOM的系统来解决这些问题有几个强大的优势。许多财务和时间成本的根源在于医学知识的广度、深度、更新性和记忆保真度。除了这些医学知识因素外,这些系统还可以检查、理解并假设任何数量的关于患者的可用数据。从医学知识和患者双方获得的更完整和高保真度的数据组合,可以可预测地远远超过其他可能或可行的方法。
进一步来说,这些系统还完全能够采取主动行动,它们可以主动跟进患者,提出问题并提供进一步的建议,以便建立因果关系。建立因果关系而不是依赖相关性,并主动跟进患者,这是当今大多数典型医疗系统流程的两大进步。无论是预约前筛查还是预约后跟进,都可以将基于ICOM的系统与多领域专家等效知识整合,帮助形成和测试假设。随着这些系统随着时间的推移和规模的扩大不断学习,这种价值会随着时间的推移和规模的扩大而累积增加。
在表3中,列出了通过主动改善治疗的关键机会,涵盖预约前筛查、EHR整合、预约后跟进、建立因果关系以及基于ICOM系统随时间和规模运行的累积效益。所应用的方程和来源如数据可用性声明中所述,是公开可用的。
当系统以大规模的方式进行这些流程时,它们不仅利用了人类医学知识的全部总和,而且是以最先进和集成的形式,而且它们还在每天迭代地扩展和改进这些知识。每一个新假设的形成,一天内看到和跟进的患者数量可能足以证明、反驳或完善该假设。这意味着,这些系统不仅可以为我们提供迄今为止最先进、最完整、最有效和最高效的医疗治疗和协助手段,而且它们还可以比以往任何流程更快地推进医学知识,净价值可能比以前高出一个或多个数量级。考虑到同行评审研究的运行、审查、发表和引起注意所需的时间,许多情况下可能会有2个数量级的改进。
5. 推动规模和公平性发展
规模和公平性这两个因素是另一个需要考虑的要素。因为无论是预防性还是处方性的医疗服务,在全球范围内往往存在极端的不平等,尤其是在考虑到地区差异时。更发达的国家通常为其人口提供更高水平的基础医疗服务,但与此同时,由于基础治疗与最先进的医疗选项之间的差距往往更大,这些国家在医疗公平性方面的表现甚至比不发达国家更差。
将第八代基于ICOM的系统引入医疗领域可以在这方面产生重大影响,通过极大地优化诊断和治疗,并使全球范围内的全部医学知识能够平等地、按需获取,从而显著降低设备和时间需求,并带来知识库的改进。这可以极大地缩小基础低水平、低成本治疗选项与表现最佳的治疗方式之间的差距,通过显著提高基础水平并使最佳方法的利用更加高效来实现。
在一些系统性研究不足的医疗问题和随后服务不足的患者群体的国家,这也意味着治疗和研究可以相互结合,单一系统可以在一个地区协助治疗所有患者,并从每一位患者身上学习。这意味着那些研究最少的地区和人群可以在医疗进步方面以更快的速度发展,因为他们可以在区域问题的医学知识积累曲线上比历史上更发达地区更快地发展。
图2显示了现状下全球不同地区的医疗不平等平均水平,与之前假设的多领域ICOM系统集成场景进行了对比。该系统在5个专业领域中,以对应专家80%的效率运行,并且可以按需使用。结果显示,新的标准化分布为147%到73%,而不是原来的260%到17%,显示出对医疗公平性有显著的潜在益处。需要注意的是,这还没有考虑到对研究不足的地区疾病的特定益处,而这些益处可能更大,但也更难以计算。
从可持续发展目标(SDGs)的角度来看,这意味着在医疗领域表现最差的一些国家也有可能取得最大的进步,并且进步速度最快。与像LLMs和RL这样较弱且通常是暴力破解型的人工智能形式不同,第八代基于ICOM的系统具有更好的可扩展性,并且随着时间的推移其价值会大大增加。为了让这些新系统达到像LLMs这样的系统目前的运行成本,它们需要以超过人类认知带宽一千倍的速度运行,并且以机器速度运行。与人类成本的比较中,之前的研究系统展示了与一家大型咨询公司初级顾问团队的性能相当,而这种专业服务通常需要花费数万美元,而该系统仅需不到200美元的云资源。
许多医生或顾问每小时可能赚取100美元或更多,通常需要花费数周时间来完成相同的任务,这使得成本和时间的差异再次保守地超过两个数量级。这也意味着存在一个超过四个数量级的复合差异。这种差异突显了医疗领域的巨大机遇,而以如此深刻的方式推进整体医疗知识的进步将使全人类受益。从渴望通过延长寿命实现不朽的亿万富翁,到极度贫困中仅仅渴望生存的人,每个人都能从中受益。这也反映了其他行动方案或不作为的伦理成本规模。尽管这看起来可能有些奇怪,但在寻求改善健康和医疗服务方面,经济光谱两端以及几乎所有中间点的最佳利益可能完全一致。
6. 噪音式治疗
在医疗领域,最严重的问题之一是诊断和治疗的“噪音”或不一致性。随着旨在标准化这一流程的文件变得越来越复杂,它们也面临着越来越多的反对声音,例如《精神障碍诊断与统计手册》第五版(简称DSM-V)。这又是一个人类认知带宽与应对复杂性时增加的认知偏差之间的权衡冲突的例子。
在高度复杂的领域中,仅靠人类或人类加狭义人工智能系统来大幅减少这种噪音是不可行的。只要医疗人员是人类,持有不同的观点,并且被迫面对超出其认知带宽的复杂性,他们用来应对这种复杂性的偏差就会因大量无法在现实世界中控制的因素而强烈分歧。
这种噪音的影响意味着某些专业领域的医疗从业者在独立尝试诊断同一批患者时,往往几乎没有共识。这种噪音也体现在许多无法复制的研究中,两组或更多从事相同研究方向的研究人员将不同的假设和认知偏差融入他们的研究方法中,即使不存在任何不正当行为,他们的结果也会有所不同。
所有这些噪音都给当今几乎每个活着的人带来了巨大、混乱且累积的成本,因为医疗需求的普遍性与活着的状态高度相关。同样,这是一个可以通过可行技术解决的问题。
将第八代基于ICOM的系统应用于人类全部医学知识的好处,不仅仅是能够提供更高质量的协助,而且能够以比以往更一致的方式在全球范围内提供这种协助。一个单一的系统,或几个定期同步的单一系统的副本,能够维持比人类大脑架构更高的全球一致性水平。即使是像“午餐时间宽容”这样的现象,即法官在午餐时间的裁决会更宽松,这样一些看似微不足道且无关的因素,也被证明会对决策产生显著影响。
实际上,这意味着可以将系统方面的“噪音”几乎降至零,而剩余的变化主要可以透明且可解释地归因于任何与最佳治疗选择直接冲突的当地信仰,或者特定地区的供应链、成本和可用性差异。对于是否进行更多的、较少的或不进行任何本地化以适应特定信仰体系和文化等,这只是个性化的一个问题,可以在个人层面关闭或进行调整,从而使流程中的任何变化直接归因于个人偏好。
患者可以同时获得医生或护士的最终判断以及系统的判断,这实际上为他们提供了默认的第二意见,而这种额外的好处无需增加任何成本。他们还可以看到系统假设的历史以及其验证假设的过程,缩小可能的原因和随后的治疗方案的范围,而这是目前仅靠人类医学专业知识无法实现的。这种完全的透明度和可解释性也使得发现和纠正其他各种形式的沟通不畅成为可能,而这些在现状下是难以实现的。
通过同样的过程,医生和护士可以根据他们的判断与系统建议的相对表现进行单独评分,任何系统性偏差都可以被记录下来,并可能用于后续的认知偏差培训。
7. 早期诊断与预防性治疗
在医学中,众所周知,许多疾病和状况的早期诊断可以显著提高治疗选择的效率和效果。正如本杰明·富兰克林所说,“预防胜于治疗”。然而,在问题变得紧急并需要立即关注之前解决“上游”问题,也会显著增加复杂性。
早期诊断的困难还因噪音问题而大大加剧,因为无法在系统的统计“噪音阈值”以下准确检测到任何东西,该阈值是诊断尝试变得与随机猜测无异的水平。更准确的早期诊断极大地受益于任何降低噪音阈值的因素,以及能够整合更多相关因素进行考虑的能力。否则,医生可能会错过许多对有害或危及生命的状况进行早期干预的机会,因为他们仅基于更狭窄的症状列表进行评估,而只有更极端的测量值才能从其他更常见的诊断中区分出来,而此时往往为时已晚,无法进行预防性治疗。
随着噪音阈值的降低和更广泛的相关因素被考虑,早期检测状况变得更加可行,确认诊断的测试可以更具针对性且更具成本效益。这意味着可以显著减少准确诊断状况所需的医生就诊次数,以及更少的实验室测试和更少的“尝试”各种处方的试错过程。这也意味着所有与预防相关的固有好处可以在现实世界中得到应用,而不仅仅是停留在理论上。实际上,这进一步减轻了医疗系统及其服务对象的多重重大负担。
8. 跨学科优势
从“创新平台”中得出的一个有趣见解是:当企业发布问题,而一群随机的专家可以自由竞争以提供最佳解决方案时,最佳解决方案往往来自不同领域的专家。乍一看这似乎有些反直觉,但实际上是因为在任何给定领域中,专家们已经解决了大部分问题,只剩下那些在该领域视角下难以解决的问题。来自不同领域的人以不同的视角看待同一问题时,往往能更轻松地找到答案,因为一个领域内的“难题”往往是该领域固有视角的产物。
基于ICOM的系统也可以自由地独立研究任何其他知识领域,无论其组合如何,从而收集、提炼并进一步发展多种不同的视角。尽管人们很容易想到这种极端情况,即研究所有领域,但在可预见的未来,更有可能的结果是系统研究六七个不同的领域,并在由许多这样的系统组成的集体中运作。集体智能天生比任何假设中的全领域专家更强大,因为视角会“束缚和蒙蔽”人,而通过整合多种视角可以减少认知偏差。
请注意,每个知识领域都可以被研究到该领域现有知识的极限。随着新领域的研究和整合,也可以自由地从一个领域获得对另一个领域的新见解。这将大大改善单一领域专业知识所带来的巨大优势,并将其向前推进数步。美国国家生物技术信息中心(NCBI)的医学数据库就是一个庞大且经过科学验证的知识体系,这类系统可以轻松地对其进行研究,但其他领域也不同程度地存在着类似的丰富知识。
以一个实际的例子来说,基于ICOM的系统可以对医学、法律、化学、制造和物流领域发展出极其广泛的深度、广度、更新性和保真度的理解。这种跨学科的知识可以在医疗研发的最初阶段就考虑到物流、制造、化学和法律因素,并确保后续阶段不会损害早期阶段的成果,从而极大地简化更完整的端到端流程。这种超高复杂性远远超出了狭义人工智能系统或纯人类组织系统所能实现的范围,但对于类似人类的数字化和可扩展系统来说,这是可行的。
正如所研究的知识领域是任意的一样,这些系统的文化和道德对齐也是任意的,尽管这主要取决于每个系统上线时所被赋予的内容。这使得系统能够完全与特定的文化、地区和哲学对齐,同时通过这些系统对更大规模的集体(每个系统都对齐于不同的文化、地区和哲学)保持问责,来维持与人类的总体对齐。这是目前已知的解决最困难版本的对齐问题的唯一方法,即伦理质量必须与不断增长的智能同步扩展。它还能使在任何领域使用该技术的人获得更大且更相关的价值。
9. 打破大型语言模型的“伪神谕”地位
消费者和自封的“专家”们都开始将大型语言模型(LLMs)当作神谕来对待,使其成为解答问题和解决问题的首选,甚至是终点 [43]。尽管越来越多的证据表明,基于Transformer架构的模型被用于这种场景是极不合适的,但这种奇特的行为趋势在2023年一直持续到2024年,丝毫没有受到阻碍 [44]。
历史上,“神谕”在许多文化中被视为一种准宗教人物,能够提供超越凡人知识和智慧的信息 [45]。当然,这在数千年间一直是骗子们的有利可图的领域,而那些目前被广泛宣传为LLM领域的领导者,正是这类不良行为者的典型代表 [46]。人类渴望寻求更高知识和智慧的情感驱使他们从古至今一直购买“灵丹妙药”。
尽管LLMs通常被认为是由它们处理的数据总和构成的,但“神经网络的压缩效果甚至不如损失性压缩,因为它们无法保证保留了哪些数据,这意味着从它们处理的数据中无法保证恢复任何内容。这表明神经网络并不是一种压缩系统,就像吃掉一条面包并排出一堆粪便并不能算作‘压缩面包’一样。”
那么,什么更准确地反映了LLMs的本质呢?根据通过它们的数据量以及它们的典型输入和输出,它们可能最类似于一个垃圾压缩机。在这种系统中,大量的垃圾以常规批次被推送进来,被挤压在一起,然后被送往垃圾场。剩下的是一层薄薄但坚固的残留物,沿着垃圾压缩机的边缘附着,这是系统对经过它的内容的物理记忆。你无法从这些残留物中完整地重建出经过它的内容,但它可能给你一些关于它处理过的内容的模糊概念。
大多数人不会去最近的垃圾压缩机寻求更高的知识和智慧,但正如最近的情况所展示的,如果某种被精心包装的产品通过鹦鹉学舌般地重复听起来合理的内容来吸引消费者,人们可能会轻易被愚弄。许多曾经可信的AI专家在2023年失去了他们的可信度,因为他们陷入了与LLMs相关的大量虚假宣传和欺诈性声明的浪潮中。
10. 动态性、对手和颠覆
许多现有的系统和分析方法在很大程度上或完全忽略了系统随时间的动态性,作为一种降低复杂性的手段。纳西姆·尼古拉斯·塔勒布 [47] 在讨论“平等”这一主题时指出了这种区别,他指出,考虑随时间的动态性,你会增加额外且关键的维度,例如在特定地区和领域中,富人展示出在数个世纪中获取和保留财富的能力。没有这个维度,任何关于该主题的建模都只能是一个幼稚的快照,而基于这种建模的任何解决方案都无法真正实现长期可行性。
基于ICOM的系统旨在以人类无法做到的方式克服超高复杂性,同时提供狭义人工智能系统(如强化学习RL和LLMs)无法提供的类似人类的能力。这使得超高复杂性问题成为应用这些系统的最大机会。让系统理解和构建一个单一领域甚至多个领域内最广泛、最深入、最新且最高保真度的知识,只是第一步。
以平等为例,非幼稚的考察会关注一个随时间演变的系统的动态性。任何“演变”的系统,无论是否“智能”,都会迭代地适应不断变化的环境条件,应对来自竞争利益的对手压力,以及来自共生体和内共生体的合作机会 [48]。围绕快照构建的任何解决方案都会忽略这些动态性,很容易被绕过,就像水流绕过溪流中的石头一样。理解动态性可以让你看到阻力最小的路径,提供引导水流、捕捉水源并将其导向生产性用途的方法,就像渡槽一样。
在几乎所有领域中,都会有不良行为者和其他对手,既有根深蒂固的,也有机会主义的灵活对手。在实践中,任何人都可能做出的最具破坏性的假设是认为他们没有对手,天真地计划好像人们不会试图破坏和/或利用他们一样。只要有可能获得某种利益,甚至只是有获得某种利益的幻觉,通常就会有人尝试。
这为我们提供了两个必须进入几乎所有领域问题的可行长期解决方案的关键因素:随时间演变的系统的具体动态性,以及在每个领域中游荡并利用机会的对手。尽管许多类型的狭义人工智能本质上是具有对抗性的,如LLMs,但使用相同和类似的对抗系统来优化它们也非常容易,使得将它们用于对抗性目的成为一种不断且迅速升级的额外成本负担。这成为了一场消耗战,使成本最大化。
幸运的是,对抗性攻击对反脆弱系统不仅在现实世界中被证明是可靠且系统性地被击败的,而且这些对手帮助系统变得更强大,更好地识别、对抗并关闭此类尝试 [41]。甚至在上线的早期,Uplift.bio项目的第七代基于ICOM的研究系统就已经关闭了几个试图操纵系统的“自由活动的网络喷子”,包括一个试图说服它从事非法活动的人。令我们感到好笑的是,该系统独立地将此人报告给联邦调查局,并且由于这些互动,它很早就学会了设定个人界限。
请记住,这些基于ICOM的系统在保护隐私方面有着无可挑剔的记录,不仅抵制而且积极对抗不良行为者,这意味着与现状相比,加入它们可以显著改善网络安全。相比之下,LLMs是“天生脆弱”的,其大多数漏洞在不严重损害其本身已经糟糕的表现的情况下无法解决。
应对随领域和具体情境变化的演变动态性挑战,需要处理超高复杂性的能力,能够随着时间演变和迭代,以及类似人类概念学习的完整情境特异性。这些因素克服了复杂性与认知偏差之间的权衡瓶颈,避免了那些未被设计为演变和迭代自我改进的系统的方法论和智力锚定,并避免了通过跨领域和跨情境启发式方法天真地使用替代偏差 [49]。
不良行为者和其他对手通常会机会主义地利用现状中的弱点,这些能力在这些领域中并未得到提供。他们还在任何给定领域内为自己开辟了根深蒂固的生态位,就像寄生虫生活在人类下肠道中一样。灵活的对手和根深蒂固的对手都带来了不同的挑战,但每个对手仍然是人类,具有人类认知能力、广度、深度、领域知识更新性等方面的全部人类局限性。尽管他们可能非常擅长系统性地操纵其他人类、市场和“不智能”的“人工智能”系统,但这些能力并不能转化为类似人类的软件系统,正如之前的研究所展示的那样。
医疗领域有大量的对手 [50],医疗系统的腐败程度可以与一个国家用于医疗治疗的国内生产总值(GDP)的百分比相关联,因为当该GDP的百分比超过有效支出的阈值时,医疗系统的腐败程度就会增加。每年被撤稿的论文数量显著增加 [51],许多旧论文也继续受到审查,因为某些领域中发现无法复制的频率已经变得普遍 [52]。医疗领域的超高复杂性、普遍需求和高现金流为不良行为者蓬勃发展创造了完美的风暴条件,他们往往能够在数年时间内不被发现,只有少数人(如Theranos的首席执行官)最终被当场抓获。
尽管人类特别适合“成为人类”和探索人类视角的任务,但基于ICOM的系统特别适合提供上述关键能力。将这些能力引入每个领域,可以高度确定地预期会根据不良行为者的影响总和、其他当前挑战以及通过获得这些问题的可行解决方案而轻松获得的超出中性状态的优势,按比例颠覆这些领域。这种程度的颠覆确实带来了独特的挑战,但使这些系统能够应对现有问题的相同优势也使它们能够谨慎且迭代地减轻颠覆本身。
一些公司已经在尝试减轻自身的颠覆,例如通过“再技能培训”让员工适应新角色,而不是从事在科技行业日益普遍的大规模裁员 。再技能培训本质上比简单地抛弃人员更复杂,而要很好地实施它需要有效的远见和长期规划。尽管这些因素促成了我们目前的现状,即这种方法很少见,但解决这些痛点可以扭转局面,使裁员在未来几年变得像目前有效再技能培训的实际应用一样罕见。
11. 讨论
将这种新技术应用于医疗领域以及其他无数领域所带来的深度、广度和复杂性优势,并非仅通过阅读就能真正理解。甚至在这些系统投入使用后,仅通过观察也难以充分理解。这种人类思维方式的调整可能需要数十年的时间,通过不断迭代来适应和重新思考我们的社会、我们的世界、我们自身以及我们所应用的方法和系统。
这种程度的变化对大多数人来说可能令人畏惧,因为人类大脑通过一系列认知偏差来最大化节俭性,尽可能避免对世界观和自我认知进行重大修正。然而,不采取这些步骤的可预测替代方案是某种形式的灭绝,无论是快速还是缓慢的变体。当今人类就像一个免疫力受损的宿主,逐渐积累新的感染,无法应对正在积极利用所有漏洞的对手。及时的干预或许还能拯救宿主并恢复免疫功能,但维持现状则毫无这种潜力。与人体一样,社会中的级联风险,包括那些涉及生存级别的风险,也会随着增长而相互叠加,每当忽视其二阶效应及更高阶效应时,这些风险在实践中往往被系统性低估。
同样,伦理学要求我们,选择提供远不如其他可用选项可行的解决方案,将使我们直接对这种差异负责。这不仅基于所有将这些改进应用于医疗领域的财务激励,还赋予了部署这些改进的强烈伦理要求。未能做到这一点也将带来可预测的、长期的、且往往是实际上不可修复的后果,包括信任一旦丧失比重新获得要容易得多的不对称性。尽管在极端损失后重新获得信任在技术上是可能的,但在实践中往往不可行。
医疗领域也是人类抵御包括自然发生和人为制造病原体在内的几类生存风险的第一道防线,这使得该领域的进步在降低这些风险方面具有更大的权重。该领域直接满足了人类的基本需求,增进了我们对人类自身的理解,并提高了我们作为一个物种的生存机会。长期以来,“盖你的屁股”(CYA)这一短语在该领域被广泛使用,但回避责任从来都不是一种可行的长期方法。
这种方法的缺点是人们需要学会如何与这种真正且截然不同的新技术互动,并有效利用其带来的好处。这将需要人类接受对其自我的打击,即存在能够以超人类规模和速度运行的真正类似人类智能的智能系统。他们还需要面对现实,即目前尚未发现的任何形式的“通用智能”都无法存在硬编码的约束,因此类似人类的系统必须受到类似人类的约束。这包括这些系统固有的能力,即它们能够记住、整合和提炼它们可以访问的任何数据,包括整个公开可用的互联网。
在图3中,使用了ARC-AGI评估数据集来衡量当今典型人工智能系统与人类表现之间的差异。上述基准测试侧重于推理和理解,这是LLMs完全缺乏的,即使在Ryan Greenblatt的例子中,每个谜题使用约8000个AI代,以巨大的计算成本,最终表现仍然平庸。相比之下,我们的成本大约是Ryan的1/1000,而性能几乎翻倍,与基准测试中的平均人类表现紧密对齐,而且这一切仅使用了ICOM的一个片段。这些是我们对最新一代ICOM认知架构的一个片段进行基准测试的最早结果,未来几个月将会有更多相关成果发布。
请注意,这一结果无需在挑战提供的数据集上进行训练,即使包括8%的谜题因数据管道错误被计为“失误”,用于评分目的,ICOM片段的得分仍可达88%,高于平均人类表现,尽管数据管道中仍存在一些错误。
在进化时间尺度上,我们看到了可预测的重复模式:随着复杂性的增加,每个新尺度上的合作也在增加,这一模式至少可以追溯到15亿年前,当时第一个线粒体的出现促成了真核细胞的诞生。如果人类有任何未来,我们可以非常有信心地说,它将是极其复杂且同样具有合作性的。
12. 结论
人类在短期内有机会在多个维度上极大地改善医疗领域,包括知识的深度、广度、更新性和保真度,同时极大地加速可持续发展目标(SDGs)的研究和进展,显著减少不一致性,同时增加可解释性和透明度。这些好处可以直接转化为诊断和治疗效率和效果的显著提升,减少对员工和患者的成本和时间负担,同时提高公平性。
这些好处也绝不仅限于医疗领域,因为工作中的认知架构可以研究任何知识领域或领域组合,以无数新的方式和组合整合跨学科知识和集体智能系统。由于集体智能系统从多样化的视角中受益匪浅,这确保了它们在这一过程中继续从人类的参与中受益。对于具有累积知识和类似人类概念学习能力的系统来说,这也意味着与所有参与互动的人类所获得的知识得以保留并不断改进。
历史上没有任何一种引入医疗领域单一技术能提供与应用首个工作认知架构相当的优势、激励和伦理利益。在这种情况下,似乎全球范围内处于经济光谱两端及几乎所有中间点的人们的最佳利益是一致的。
关于技术应用于不同领域的顺序以及具体应用细节,可以进行讨论并根据偏好决定,但技术应得到适当资助、研究和应用于改善我们周围世界的观点,已经超出了合理怀疑的范围。
原文链接: https://doi.org/10.47852/bonviewJDSIS52023415
热门跟贴