什么是智能体工作流？如何设计？|agent|吴恩达|工作流|智能体|编程|调用

在大模型内卷的大环境下，虽然大模型的使用成本正变得越来越低，但模型迭代的训练成本却有增无减。

据OpenAI前研究副总裁、Anthropic现CEO达里奥·阿莫迪（Dario Amodei）在公开采访时的说法：OpenAI今年推出的GPT-4o新版大模型，训练成本约为1亿美元，目前正在开发的AI大模型训练成本可能高达10亿美元。

而日前Meta刚发布的Llama 3.1再度刷新最强开源大模型记录的同时，Meta创始人兼首席执行官马克·扎克伯格透露：Llama 3.1的训练成本就花了数亿美元，未来模型的训练成本将还可能升至数十亿美元。

这使得在持续的高投入面前，部分大模型及模型应用厂商开始探索突破代际模型桎梏，增强模型性能的方法。

在这其中，智能体工作流（AI agent workflows）算是在原模型基础上通过策略和方法调整，显著改善模型性能的一大方向。

业内人对于智能体工作流（AI agent workflows）的认知，可能大都来自AI领域权威学者吴恩达教授在AI Ascent 2024 大会上的分享。

在这场分享中，他提出了人们可以通过反馈引导大模型进行优化调整，从而突破大语言模型代际鸿沟的新思路。

区别于以往高度依赖代际模型性能，单线式进行信息输入和结果输出的非智能体式工作流（Non-agentic workflow），智能体式的工作流（AI agent workflows）减少了对模型质量的依赖，更多侧重于在任务完成过程中，通过双线式的反馈和优化，让AI在复杂任务中实现更好的输出效果。

简单来说，就是在AI执行任务时，不再仅限于简单发布指令，还要善于督促其进行自我调整和修正，让最终的输出效果能媲美甚至超过更高质量的模型。

为了增加可行性和说服力，吴恩达教授还基于HumanEval做了相应的验证。

测试结果表明：虽然零次学习下的 GPT-3.5模型性能与GPT-4相比差异较大（GPT-4输出结果的准确率较之 GPT-3.5约高出19%），但在使用智能体工作流的情况下，GPT-3.5模型的输出性能（准确率75%+）明显优于 GPT-4（零次学习下准确率为67%）。

而且当两代大模型产品都使用智能体工作流，模型性能均有不同幅度的提升，两者输出的准确率分别保持在70%和80%以上。

基于以上几点，他认为：智能体工作流的价值被极大地低估。随着智能体工作流的价值被逐渐发现和得到重视，未来它很有可能成为大模型增强的一种有效手段。

如何设计智能体工作流？

智能体工作流对改善模型性能的吸引力，让人们听后跃跃欲试，但怎样才能建立这样的工作流程呢？

目前业内尚无统一定论。不过在吴恩达教授的分享中，他提到了设计智能体工作流的4个模块和方向。即反思（Reflection）、工具使用（Tools use）、规划（Planning）、多智能体协作（Multi-agent collaboration）。

其中反思（Reflection）模块，个人理解下来，很大程度上在于督促AI在执行任务时模拟人类进行反思、自查和改进，从而在这种持续的反馈和调整中，提高最终的生成质量与准确率。

在这个过程中，Coder Agent（下达指令）和 Critic Agent（自查改进）是发挥关键作用的两部分。而且反思模式在编程、写作、设计等需要大量修改完善的任务中，显得尤其适用。

工具使用（Tools use）模块，如字面意思理解，很大程度上指向模型在完成任务时，往往需要调用一定的工具来配合完成目标。

举个例子，在完成写作任务时，为了让生成的内容更翔实生动，图文并茂，大模型可能需要用到分析研究、网络搜索、图片生成等工具。

遇上提问的内容“超纲”（超出语言模型现有的知识储备或能力范畴），通过外部工具或补充本地知识库来推动生成全面真实的内容，其实也是避免模型幻觉的有效方式。这种按需调用各类工具以推动复杂任务执行的模式，有效扩展着大模型的整体能力。

至于规划（Planning），通常指向通过“思维链提示”在大语言模型中引发分步推理，并在“工具使用”的基础上，推动大模型跨越特定领域，灵活地组合不同的专家模型来完成复杂的任务目标。

相比前面3点，多智能体协作（Multi-agent collaboration）在大众视野中可能关注度更高，应用也更广泛。

对比单智能体，多智能体（Multi-Agent）具有低内存、更稳定、可拓展、支持多方案并行等优点，尤其在解决复杂问题或任务上，展现出了超越单智能体的卓越协作能力。

基于此，这种通过优化分工协作，显著提升GenAI生成效率和效果的方式，被当做提升模型性能的有力途径。

写在最后

将AI智能体嵌入到工作流程中，实现流程自动化和增强任务的方法，虽然仍存在一定的不稳定性，但在提升现有模型在处理复杂任务上的性能和容错能力，提高模型输出效率、质量和稳定性上表示出了极大的潜力和应用前景。

这也是包括吴恩达教授等在内的AI领域学者专家认为：“Agent工作流的使用能推动拓展AI完成任务的能力”，未来AI+Human协同将发展为长期形态的一大原因。

另外，虽然基于HumanEval的测试，验证了使用智能体工作流能让上一代大模型的输出性能赶超新一代模型（未使用智能体工作流），但在两代大模型产品同时使用智能体工作流的情况下，新一代模型产品的性能提升空间会更大。

这意味着使用智能体工作流与推动大语言模型产品迭代并不冲突，反而能相辅相成，同时为减少代际影响和降低模型训练成本提供新思路。

本文原创，首发司普科技，有参考《What is Agentic Workflow? Discover How AI Enhances Productivity 》，仅做分享。

什么是智能体工作流？如何设计？

如何设计智能体工作流？

写在最后

热搜

热门跟贴

如何设计智能体工作流？

写在最后

热搜

热门跟贴

相关推荐

媒体：美联储4年来首次降息 美国又把"祸水"引向全球

河南叶县政府领导带队 集结几百人强拆大学生创业果园

用AI自动设计智能体，数学提分25.9%，远超手工设计

OpenAI重金押注，机器人NEO世界模型登场！机器人迎来ChatGPT时刻？

到底是租车还是买车？应聘网约车司机却背了18万元车贷，小伙郁闷

俄军伤兵遭野狗吞食惨不忍睹，俄罗斯国师杜金公开表示绝望

工信部征求意见：汽车要强制安装“收音机”！

阿里推出AI数据科学家，全流程自动化，科研小白也能用

中传经管学院联合研发！橙篇推出首个经济学领域高校智能体「中传经小济」

联大通过决议要求以色列结束占领

看基辅的街头！只有勇敢的人们才值得拥有真正的自由！

6连胜！亚洲之光1-0淘汰美国，重返女足世界杯决赛，抱在一团庆祝

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

OpenAI o1全方位SOTA登顶lmsys排行榜！数学能力碾压Claude和谷歌模型，o1-mini并列第一

笑不活了，博主拆开苹果新款手机发现电池是钢制外壳，评论笑死！

王楚钦，考编成绩公布

70年前的阿兰·图灵情书！计算机之父和一段「有罪」的罗曼史

梅西替补，84分钟遭绝平！迈阿密2-2无缘6连胜，仍高居榜首

以色列大量手机用户收到虚假“紧急安全提示”

勤哲EXCEL服务器自动生成影视技术公司信息化管理系统

媒体：美联储4年来首次降息美国又把"祸水"引向全球

河南叶县政府领导带队集结几百人强拆大学生创业果园