- 大模型的下半场,正在进入“智能体”涌现时间。
最近,OpenAI 的秘密项目“Q*”一直受到了圈内人士的广泛关注。上个月,以它为前身、代号为“草莓(Strawberry)”的项目又被曝光了。据推测,该项目能够提供高级推理能力。
就在人们翘首以盼“Q*”的时候,一家名为MultiOn的初创公司的CEO Div Garg在推特上频频使用草莓表情,并发布了一款名为Agent Q的智能体,让人不禁联想到OpenAI神秘的Q项目。
有人猜测,这背后可能有OpenAI的Q*项目加持。MultiOn公司不仅给AgentQ开设了独立的X账号,而且账号的背景图片和基本信息都与草莓有关,这无疑增加了人们对其背后技术的好奇。
最被看好的AI应用方向
近年来,大型语言模型(LLM)在人工智能领域取得了显著的进步。像ChatGPT、Gemini、Opus和LLaMA-3这样的前沿模型展现出强大的推理能力,在许多领域的表现接近甚至超越了人类平均水平。这些突破将LLM的应用范围从传统的聊天和基于文本的任务扩展到了更具动态性的智能体角色,使其不仅可以生成文本,还可以在各种环境中自主地执行操作。
然而,一个重大的挑战依然存在:LLM在交互式、多步骤的环境中仍然难以有效地泛化。Muli0n的研究人员致力于解决这一难题他们的目标是设计一种方法,使智能体能够利用自主经验和有限的监督来进行改进。为此,他们引入了Agent Q--一种将推理、搜索自我批评和强化学习等多个关键概念相结合的新方法。
Agent Q的设计灵感来自于Suton提出的“痛苦教训",即那些能够随着计算量的增加而不断扩展的通用方法的力量,这表明了将搜索和学习结合起来的巨大好处。
在Open Table上进行的真实世界预订实验中,Agent Q大幅提高了LLaMa-3模型的零样本性能,将其成功率从18.6%提升至81.7%提升幅度高达340%,并且仅需一天的自主数据收集。如果启用在线搜索功能,成功率更可进一步提升至 95.4%。这些结果突出了Agent Q方法在提升自主Web智能体效率和性能方面的显著效果。
Agent Q作为AI智能体的一种,具有自主性、反应性、社会性、认知性、思辨性等特征的智能“代理”,能够自主理解、规划决策、执行复杂任务等。它的核心在于自主性的增强,即可以独立完成某项工作,不必人类进行过多的审核校正,可以将成本降到最低。
OpenAI对AI智能体的定义着重于其作为一个以大型语言模型为核心的系统,这个系统具备自主理解感知、规划、记忆和使用工具的能力,使其能够自动完成复杂的任务。
AI智能体的基本框架包含四个主要模块:记忆、规划、工具使用和行动。
记忆模块负责存储信息,既包括过去的交互和学习到的知识,也包括临时的任务信息。有效的记忆机制对智能体来说至关重要,使其能够在遇到新的或复杂情况时,调用过往的经验和知识。记忆又分为短期和长期两种,短期记忆用于上下文学习,而长期记忆则通过外部数据库和快速检索,为智能体提供长时间保留和回忆信息的能力。
规划模块包括事前规划和事后反思两个阶段。事前规划涉及对未来行动的预测和决策,帮助智能体高效地规划步骤和行动以达到目标。事后反思则让智能体能够检查和改进计划中的不足,从错误中学习并加入长期记忆,以此更新对世界的认知。
工具使用模块使智能体能够利用外部资源或工具执行任务。例如,它们可以调用外部API来获取模型数据中缺失的信息,或者使用特定软件分析大量数据。这种工具使用方式提升了智能体的效率和任务完成能力。
行动模块是智能体实际执行决策和响应的部分。智能体拥有一系列行动策略,根据不同任务选择相应的行动,如记忆检索、推理、学习和编程等。
当前,AI智能体的技术难点主要包括以下几个方面。
第一,理解复杂任务。AI智能体需要能够理解并执行复杂的、多步骤的任务,这要求模型具备强大的理解能力和规划能力。
第二,记忆和知识管理。为了在执行任务时保持连贯性和上下文理解,AI智能体需要具备长期记忆的能力,这涉及到有效的信息存储和检索机制。
第三,工具使用和集成。AI智能体需要能够与外部环境进行交互,需要能够使用和集成各种工具和服务,包括调用API、使用软件应用程序等。这要求模型具备一定的外部工具使用能力,以完成任务,同时需要注意不同工具之间的互操作性和集成问题。
第四,多模态理解。AI智能体在实际应用中可能需要处理和理解多种类型的输入,如文本、图像、音频等,这要求模型具备多模态理解的能力,并能够与用户进行自然的交互。
第五,安全性和可靠性。在执行任务时,AI智能体需要确保操作的安全性和可靠性,避免产生不可预测的错误或风险。
第六,伦理和隐私问题。AI智能体的开发和使用涉及到安全和伦理问题,如隐私保护、偏见和公平性等,需要确保AI智能体的行为符合道德和社会规范。
大厂集体攻坚“智能体”
随着AI浪潮风起云涌,国内互联网大厂们都一一成为急先锋,不断在AI领域加码,不论是阿里巴巴腾讯,还是字节跳动拼多多百度,都将AI视为核心战略。从最近一段时间开始,组建AI应用商店,创造各类智能体应用,搭建AI生态,成了大厂们的热门潮流。
智能体应用是基于内嵌于终端的本地大模型打造,精准理解用户意图,并将意图转换为相应的任务组合,分解任务并识别任务完成的路径,通过查询本地知识库、调用设备API以及合适的模型或应用来执行相应的任务,并将相应的结果返回给智能体,智能体完成整合后反馈给用户。
简单来说,智能体将成为AI OS系统的最小工作单元,在PC、手机、自动驾驶领域预计有广泛的应用场景。而承载智能体应用的最好容器,就是AI应用商店。
2024年2月,字节跳动正式推出“Coze扣子”AIBot开发平台。据其官方描述称:无论你是否有编程基础,都可以在扣子上快速搭建基于大模型的各类Bot,并将Bot发布到各个社交平台、通讯软件或部署到网站等其他渠道。
2024年4月,百度旗下的“灵境矩阵”正式更名为“文心智能体平台”,基于文心大模型,支持广大开发者根据自身行业领域、应用场景,选取多样化的开发方式,打造大模型时代的原生应用。
2024年5月,腾讯基于“混元大模型”上线一站式AI智能体创作与分发平台“腾讯元器”。用户不仅可以在平台上创建专属AI智能体,使用腾讯官方的插件和知识库,还能将这些智能体一键分发到QQ、微信客服、腾讯云等渠道上。
除此之外,近日又传出微信的云开发团队正在打造一款名为“云开发AI智能体”的应用平台,这是一个多平台AI智能体开发框架,用于企业和小程序提供专属的智能体平台。
蚂蚁集团也在开发一款AI应用搭建工具“芝士饼”。用户通过该平台也能够在无代码的情况下搭建AI应用,支持创作成支付宝小程序等多种产品形态。
如今,国内AI应用商店、智能体应用平台已经成为“风暴眼”。2023年,大厂们的注意力放在搭建AI大模型;2024年,大厂们又转向搭建智能体应用平台。
目前为止,AI智能体并没有诞生一个“超级巨头”,所有玩家都是起步阶段,用户教育还在初级层次。这场AI世界分发权的斗争,注定要持续很久。
AI智能体技术演化路径
AI智能体正成为人工智能成为基础设施的关键驱动力。从技术发展角度看,技术最终会演变成基础设施,就像水、电一样变得无处不在而又必不可少,云计算就是一个类似例子。
IDC《AIGC应用层十大趋势》报告调研表明,所有企业都认为AI智能体是AIGC发展的确定性方向,50%的企业已经在某项工作中进行了AI智能体的试点,另有34%的企业正在制定AI智能体的应用计划。
《2024数字科技前沿应用趋势》中,“多模态智能体加速AGI进程”被列为第二大趋势。报告认为,通用人工智能渐行渐近,大模型走向多模态,AI智能体有望成为下一代平台;端侧大模型加速部署,或将成为未来交互新入口。AI在数学推理、新药研发、材料发现、蛋白质合成等领域大显身手,“AI科学家”有望加速问世。
综合多家研究报告来看,AI智能体的发展或将出现几条最具前景的路径。
首先,是多智能体系统(Multi-Agent Systems,MAS),其是由多个互相协作或竞争的自治智能体组成的系统,旨在通过集体行为解决复杂问题。智能体的主要任务通常包括感知环境、处理信息、做出决策,并与其他智能体交互以实现共同的目标。
该系统由多个自治的、互动的、异构的智能体组成,每个智能体都有自己的目标、行为、信念和偏好,同时也受到环境的影响和约束。其目标是实现智能体之间的协作和竞争的平衡,使得每个智能体都能达到自己的目标,同时也能促进整个系统的性能和效益。
难点是如何处理智能体之间的复杂的交互和协调,如何解决智能体之间的冲突和矛盾,如何评估智能体的表现和进步,如何接受人类的反馈和指导,如何遵守人类的伦理和法律等。
智能体可以以协作或竞争的方式相互交互。这使他们能够通过团队合作或对抗性互动来实现进步。在系统中,智能体可以共同完成复杂的任务或相互竞争以提高其性能。
比如用于模拟和优化交通、能源、物流等领域的复杂系统,也可以用于设计和实现智能家居、智能城市、智能工厂等应用场景。
第二,是自主智能体(Autonomous Agent),其是指能够在环境中感知、学习和执行动作的智能实体。这种实体具有自主性,即它能够独立地做出决策和行动,而无需人为干预。
自主智能体具备自主决策和行动能力,能够在给定的环境中自主地感知、学习和做出决策,以实现特定的目标。自主智能体能够根据环境的变化和反馈信息,不断地适应和改进自己的行为,从而实现更好的性能和效果。
它通常被设计成具备对环境的感知能力,能够根据感知到的信息做出理性的决策,并执行相应的动作以达到特定的目标。在实现自主性的过程中,机器学习和深度学习等技术发挥了关键作用。
自主智能体的设计和实现涉及多个方面,包括但不限于机器学习、自然语言处理、计算机视觉等AI技术的综合运用。
它们被设计用于执行各种不同的任务,如管理社交媒体账户、投资市场、制作儿童读物等,甚至在一些情况下,它们可以帮助人们释放时间去做更有创造性的事情。其研究价值主要体现在强化学习和机器人学中,例如DeepMind的AlphaGo和OpenAI的 OpenAI Five(一个会打团战的Dota2游戏AI)都是比较典型的基于强化学习智能体运用。
LLM爆发以后,近一年来关于自主智能体的研究和话题开始呈现井喷之势,例如AutoGPT、BabyAGI、GenerativeAgents、MetaGPT等项目在Github上已狂揽上万star,成为炙手可热的明星项目。
第三,是超级个体。基于智能体的人机协同模式,每个普通个体都有可能成为超级个体。超级个体是一个由许多有机体组成的有机体系,通常是一个真社会性动物的社会单位,其中社会分工被高度专业化,且个体无法独自长时间地生存。
在现代社会中,超级个体也可以指精通一项或多项专业技能,并完成商业变现,最终对传统雇佣关系实现脱离依附的复合型人才。
AI智能体可以赋予超级个体更多的机遇,使个人能够在更广阔的领域展示才华,通过AI赋能进行创造性工作,足以打造一个人的团队与公司。
超级个体是拥有自己的AI团队与自动化任务工作流,基于智能体与其他超级个体建立更为智能化与自动化的协作关系。现在业内不乏一人公司、超级个体的积极探索。
Github平台上,已经出现一些基于智能体的自动化团队项目。比如GPTeam利用大模型创建多个被赋予角色和功能的智能体,多智能体协作以实现预定目标。Dev-GPT是一个自动化开发和运维的多智能体协作团队,包含了产品经理智能体、开发人员智能体和运维人员智能体等角色分工,可以满足和支撑一个初创营销公司的正常运营。NexusGPT整合了开源数据库中的各种AI原生数据,并拥有800多个具有特定技能的AI智能体。在该平台上,你可以找到不同领域的专家,例如设计师、咨询顾问、销售代表等。雇主可以随时在这个平台上选择一个AI智能体帮助他们完成各种任务。
AI智能体作为人工智能领域的一项革命性技术,预示着人类与机器之间协作方式的根本变革。随着AI智能体技术的进一步发展和成熟,我们预期会看到更智能、更高效、更个性化的智能助理,将极大地提升人类的生产力和生活质量。然而,技术进步也伴随着安全、伦理和社会挑战,需要我们在享受技术带来的便利的同时,也要不断审视和解决这些挑战,从而为技术的未来发展找到一条切实可行的路径。
热门跟贴