AI智能体，人工智能的“增程模式”？|ai智能体|人工智能|人机交互|增程模式|大模型|机器人|算法

文 | 极智GeeTech

在人工智能的发展长河中，我们正站在一个激动人心的转折点。

想象一下，未来的人工智能什么样？只需简单一个指令，它们便能领悟并执行复杂的任务；它们还能通过视觉捕捉用户的表情和动作，判断其情绪状态。这不再是好莱坞科幻电影中的场景，而是正逐步走进现实的AI智能体时代。

早在2023年11月，微软创始人比尔·盖茨就发文表示，智能体不仅会改变每个人与计算机交互的方式，还将颠覆软件行业，带来自我们从键入命令到点击图标以来最大的计算革命。OpenAI首席执行官山姆·奥特曼也曾在多个场合表示：构建庞大AI模型的时代已经结束，AI智能体才是未来的真正挑战。今年4月份，AI著名学者、斯坦福大学教授吴恩达指出，智能体工作流将在今年推动AI取得巨大进步，甚至可能超过下一代基础模型。

类比智能电动汽车，犹如其在新能源技术应用和里程焦虑之间寻找到某种平衡的增程路线一样，AI智能体让人工智能进入了“增程模式”，在AI技术和行业应用之间尽可能达成新的平衡。

被看好的AI智能体

顾名思义，AI智能体就是具有智能的实体，能够自主感知环境、做出决策并执行行动，它可以是一个程序、一个系统，也可以是一个机器人。

去年，斯坦福大学和谷歌的联合研究团队发表了一篇题为《生成式智能体：人类行为的交互式模拟》的研究论文。在文中，居住在虚拟小镇Smallville的25个虚拟人在接入ChatGPT之后，表现出各种类似人类的行为，由此带火了AI智能体概念。

此后，很多研究团队将自己研发的大模型接入《我的世界》等游戏，比如，英伟达首席科学家Jim Fan在《我的世界》中创造出了一个名叫Voyager的AI智能体，很快， Voyager表现出了十分高超的学习能力，可以无师自通地学习到挖掘、建房屋、收集、打猎等游戏中的技能，还会根据不同的地形条件调整自己的资源收集策略。

OpenAI曾列出实现通用人工智能的五级路线图：L1是聊天机器人；L2是推理者，即像人类一样能够解决问题的AI；L3是智能体，即不仅能思考，还可采取行动的AI系统；L4是创新者；L5是组织者。这其中，AI智能体恰好位于承前启后的关键位置。

作为人工智能领域的一个重要概念，学术界和产业界对AI智能体提出了各种定义。大致来说，一个AI智能体应具备类似人类的思考和规划能力，并具备一定的技能以便与环境和人类进行交互，完成特定的任务。

或许把AI智能体类比成计算机环境中的数字人，我们会更好理解——数字人的大脑就是大语言模型或是人工智能算法，能够处理信息、在实时交互中做出决策；感知模块就相当于眼睛、耳朵等感官，用来获得文本、声音、图像等不同环境状态的信息；记忆和检索模块则像神经元，用来存储经验、辅助决策；行动执行模块则是四肢，用来执行大脑做出的决策。

长久以来，人类一直在追求更加“类人”甚至“超人”的人工智能，而智能体被认为是实现这一追求的有效手段。近些年，随着大数据和计算能力的提升，各种深度学习大模型得到了迅猛发展。这为开发新一代AI智能体提供了巨大支撑，并在实践中取得了较为显著的进展。

比如，谷歌DeepMind人工智能系统展示了用于机器人的AI智能体“RoboCat”；亚马逊云科技推出了Amazon Bedrock智能体，可以自动分解企业AI应用开发任务等等。Bedrock中的智能体能够理解目标、制定计划并采取行动。新的记忆保留功能允许智能体随时间记住并从互动中学习，实现更复杂、更长期运行和更具适应性的任务。

这些AI智能体的核心是人工智能算法，包括机器学习、深度学习、强化学习、人工神经网络等技术。通过这些算法，AI智能体可以从大量数据中学习并改进自身的性能，不断优化自己的决策和行为，还可以根据环境变化做出灵活地调整，适应不同场景和任务。

目前，AI智能体已在不少场景中得到应用，如客服、编程、内容创作、知识获取、财务、手机助手、工业制造等。AI智能体的出现，标志着人工智能从简单的规则匹配和计算模拟向更高级别的自主智能迈进，促进了生产效率的提升和生产方式的变革，开辟了人们认识和改造世界的新境界。

AI智能体的感官革命

莫拉维克悖论（Moravec’s paradox）指出，对于人工智能系统而言，高级推理只需非常少的计算能力，而实现人类习以为常的感知运动技能却需要耗费巨大的计算资源。实质上，与人类本能可以完成的基本感官任务相比，复杂的逻辑任务对AI而言更加容易。这一悖论凸显了现阶段的AI与人类认知能力之间的差异。

著名计算机科学家吴恩达曾说：“人类是多模态的生物,我们的AI也应该是多模态的。”这句话道出了多模态AI的核心价值——让机器更接近人类的认知方式，从而实现更自然、更高效的人机交互。

我们每个人就像一个智能终端，通常需要去学校上课接受学识熏陶（训练），但训练与学习的目的和结果是我们有能力自主工作和生活，而不需要总是依赖外部的指令和控制。人们通过视觉、语言、声音、触觉、味觉和嗅觉等多种感官模式来了解周围的世界，进而审时度势，进行分析、推理、决断并采取行动。

AI智能体的核心在于“智能”，自主性是其主要特点之一。它们可以在没有人类干预的情况下，根据预设的规则和目标，独立地完成任务。

想象一下，一辆无人驾驶车装备了先进的摄像头、雷达和传感器，这些高科技的“眼睛”让它能够“观察”周围的世界，捕捉到道路的实时状况、其他车辆的动向、行人的位置以及交通信号的变化等信息。这些信息被传输到无人驾驶车的大脑——一个复杂的智能决策系统，这个系统能够迅速分析这些数据，并制定出相应的驾驶策略。

例如，面对错综复杂的交通环境，自动驾驶汽车能够计算出最优的行驶路线，甚至在需要时做出变道等复杂决策。一旦决策制定，执行系统便将这些智能决策转化为具体的驾驶动作，比如转向、加速和制动。

在基于庞大数据和复杂算法构建的大型智能体模型中，交互性体现得较为明显。能够“听懂”并回应人类复杂多变的自然语言，正是AI智能体的神奇之处——它们不仅能够“理解”人类的语言，还能够进行流畅而富有洞察力的交互。

AI智能体不仅能迅速适应各种任务和环境，还能通过持续学习不断优化自己的性能。自深度学习技术取得突破以来，各种智能体模型通过不断积累数据和自我完善，变得更加精准和高效。

此外，AI智能体对环境的适应性也十分强大，在仓库工作的自动化机器人能够实时监测并避开障碍物。当感知到某个货架位置发生变化时，它会立即更新其路径规划，有效地完成货物的拣选和搬运任务。

AI智能体的适应性还体现在它们能够根据用户的反馈进行自我调整。通过识别用户的需求和偏好，AI智能体可以不断优化自己的行为和输出，提供更加个性化的服务，比如音乐软件的音乐推荐、智能医疗的个性化治疗等等。

多模态大模型和世界模型的出现，显著提升了智能体的感知、交互和推理能力。多模态大模型能够处理多种感知模式（如视觉、语言），使智能体能够更全面地理解和响应复杂的环境。世界模型则通过模拟和理解物理环境中的规律，为智能体提供了更强的预测和规划能力。

经过多年的传感器融合和AI演进，机器人现阶段基本上都配备有多模态传感器。随着机器人等边缘设备开始具备更多的计算能力，这些设备正变得愈加智能，能够感知周围环境，理解并以自然语言进行沟通，通过数字传感界面获得触觉，以及通过加速计、陀螺仪与磁力计等的组合，来感知机器人的比力、角速度，甚至机器人周围的磁场。

在Transformer和大语言模型（LLM）出现之前，要在AI中实现多模态，通常需要用到多个负责不同类型数据（文本、图像、音频）的单独模型，并通过复杂的过程对不同模态进行集成。

而在Transformer和LLM出现后，多模态变得更加集成化，使得单个模型可以同时处理和理解多种数据类型，从而产生对环境综合感知能力更强大的AI系统，这一转变大大提高了多模态AI应用的效率和有效性。

虽然GPT-3等LLM主要以文本为基础，但业界已朝着多模态取得了快速进展。从OpenAI的CLIP和DALL·E，到现在的Sora和GPT-4o，都是向多模态和更自然的人机交互迈进的模型范例。

例如，CLIP可理解与自然语言配对的图像，从而在视觉和文本信息之间架起桥梁；DALL·E旨在根据文本描述生成图像。我们看到Google Gemini模型也经历了类似的演进。

2024年，多模态演进加速发展。今年2月，OpenAI发布了Sora，它可以根据文本描述生成逼真或富有想象力的视频。仔细想想，这可以为构建通用世界模拟器提供一条颇有前景的道路，或成为训练机器人的重要工具。

3个月后，GPT-4o显著提高了人机交互的性能，并且能够在音频、视觉和文本之间实时推理。综合利用文本、视觉和音频信息来端到端地训练一个新模型，消除从输入模态到文本，再从文本到输出模态的两次模态转换，进而大幅提升性能。

多模态大模型有望改变机器智能的分析、推理和学习能力，使机器智能从专用转向通用。通用化将有助于扩大规模，产生规模化的经济效应，价格也能随着规模扩大而大幅降低，进而被更多领域采用，从而形成一个良性循环。

潜在风险不容忽视

AI智能体通过模拟和扩展人类的认知能力，有望广泛应用于医疗、交通、金融及国防等多个领域。有学者推测，到2030年，人工智能将助推全球生产总值增长12%左右。

不过，在看到AI智能体飞速发展的同时，也要看到其面临的技术风险、伦理和隐私等问题。一群证券交易机器人通过高频买卖合约便在纳斯达克等证券交易所短暂地抹去了1万亿美元的价值，世界卫生组织使用的聊天机器人提供了过时的药品审核信息，美国一位资深律师没能判断出自己向法庭提供的历史案例文书竟然均由ChatGPT凭空捏造……这些真实发生的案例表明，AI智能体带来的隐患不容小觑。

因为AI智能体可以自主决策，又能通过与环境交互施加对物理世界的影响，其一旦失控将给人类社会带来极大威胁。哈佛大学教授齐特雷恩认为，这种不仅能与人交谈，还能在现实世界中行动的AI智能体，是“数字与模拟、比特与原子之间跨越血脑屏障的一步”，应当引起警觉。

首先，AI智能体在提供服务的过程中会收集大量数据，用户需要确保数据安全，防止隐私泄露。

其次，AI智能体的自主性越强，越有可能在复杂或未预见的情境中做出不可预测或不当的决策。AI智能体的运行逻辑可能使其在实现特定目标过程中出现有害偏差，其带来的安全隐患不容忽视。用更加通俗的话来说，就是在一些情况下，AI智能体可能只捕捉到目标的字面意思，没有理解目标的实质意思，从而做出了一些错误的行为。

再次，AI大语言模型本身具备的“黑箱”和“幻觉”问题也会增加出现操作异常的频率。还有一些“狡猾”的AI智能体能够成功规避现有的安全措施，相关专家指出，如果一个AI智能体足够先进，它就能够识别出自己正在接受测试。目前已经发现一些AI智能体能够识别安全测试并暂停不当行为，这将导致识别对人类危险算法的测试系统失效。

此外，由于目前并无有效的AI智能体退出机制，一些AI智能体被创造后可能无法被关闭。这些无法被停用的AI智能体，最终可能会在一个与最初启动它们时完全不同的环境中运行，彻底背离其最初用途。AI智能体也可能会以不可预见的方式相互作用，造成意外事故。

为此，人类目前需尽快从AI智能体开发生产、应用部署后的持续监管等方面全链条着手，及时制定相关法律法规，规范AI智能体行为，从而更好地预防AI智能体带来的风险、防止失控现象的发生。

展望未来，AI智能体有望成为下一代人工智能的关键载体，它将不仅改变我们与机器交互的方式，更有可能重塑整个社会的运作模式，正成为推动人工智能转化过程中的一道新齿轮。