打开网易新闻 查看精彩图片

《Training Data》是红杉资本出品的一档播客,本期嘉宾是LangChain创始人、CEO Harrison Chase。

AutoGPT 和 Baby AGI 可能标志着炒作周期的顶峰,但今年在产品方面出现了一波代理突破,从 Klarna 的客户支持 AI 到 Cognition 的 Devin 等。Harrison解释了哪些变化让代理能够提高绩效并获得关注。Harrison分享了他所持乐观态度的方面,他认为代理的前景如何,以及他认为哪些东西会被训练成模型本身,并讨论了他认为可能在未来改变我们体验代理方式的新型 UX。

  • 代理代表着从副驾驶到更自主系统的转变。哈里森认为,代理是人工智能的下一波浪潮,超越副驾驶,成为能够更独立运作的系统。这种转变允许更大的杠杆作用和自动化,有可能让人类专注于更高级别的任务和战略思考。

  • 定制认知架构是实际部署代理的关键。虽然像 AutoGPT 这样的通用、不受约束的代理激发了人们的想象力,但 Harrison 认为,在实际应用中,更受约束、特定领域的认知架构被证明更为有效。这些定制架构编码了特定的业务逻辑和思维模型,从而实现了更可靠、更有针对性的性能。

  • 有效的用户体验设计对于代理的采用和性能至关重要。Harrison强调用户体验在代理设计中的重要性,并强调了透明操作日志、回放和编辑代理决策的能力以及协作界面等功能。这些用户体验元素有助于平衡自主性和人为监督,从而解决 LLM 当前的局限性。

  • 编排和可观察性是代理开发中的关键挑战。LangChain专注于提供编排工具 (LangGraph) 和可观察性解决方案 (LangSmith),以解决构建和部署代理的关键痛点。这些工具可帮助开发人员管理复杂、多步骤的代理工作流程,并深入了解非确定性 LLM 行为。

  • 软件开发的未来可能会转向更高级别的“构建者”。哈里森设想的未来是,人工智能代理可以让更广泛的人成为软件构建者,专注于高级设计和策略,而不是低级实施细节。这种转变可能会使软件创建变得民主化,并带来新类型的应用程序和业务。

章节目录

  • 什么是代理?

  • LangChain 在代理生态系统中扮演什么角色?

  • 代理会成为下一个热门话题吗?

  • 第一个自主代理没有发挥作用,为什么?

  • 什么是认知架构?

  • 定制和硬编码是世界的发展方向还是权宜之计?

  • 我们取得了很大进展,但仍有很大的进步空间

  • 关注如何让你的啤酒味道更好

  • 弹出一个关卡,那又怎么样?

  • 代理商从哪里获得关注?

  • 反思、思路链,还是其他技巧?

  • 用户体验会影响架构的有效性

  • 什么超出范围?

  • 微调还是提示?

  • LangSmith 和 LangGraph?

  • 现有的可观察性工具在哪些方面适用于 LLM,而又需要新的架构 / 方法?

  • 快问快答

Sonya Huang:大家好,欢迎收看《Training Data》。今天我们邀请到了 LangChain 的创始人兼首席执行官 Harrison Chase。Harrison 是代理生态系统中的传奇人物,他是第一个将 LLM 与工具和行动联系起来的产品远见者。LangChain 是人工智能领域最受欢迎的代理构建框架。今天,我们很高兴向 Harrison 询问代理的现状、未来潜力和未来之路。Harrison,非常感谢您加入我们。欢迎来到节目。

哈里森·蔡斯:当然,感谢您的邀请。

什么是代理?

Sonya Huang:所以也许只是为了铺垫一下,代理是每个人都想进一步了解的话题。自从 LLM 浪潮首次兴起以来,您一直处于代理建设的中心。所以也许首先只是为了铺垫一下。代理到底是什么?

Harrison Chase:我认为定义代理实际上有点棘手。人们可能对它们有不同的定义,我认为这很公平,因为 LLM 和代理相关的所有事物的生命周期还处于相当早期的阶段。

我对代理的看法是,当 LLM 有点像决定应用程序的控制流时。所以我的意思是,如果你有一个更传统的 RAG 链或检索增强生成链,这些步骤通常是提前知道的,首先,你可能会生成一个搜索查询,然后你将检索一些文档,然后你将生成一个答案。然后你将把它返回给用户。这是一个非常固定的事件序列。

我认为,当我想到开始具有代理性的东西时,就是当你把 LLM 置于其中心并让它决定它到底要做什么时。所以有时它可能查找搜索查询。其他时候,它可能不会,它可能只是直接响应用户。也许它会查找搜索查询,获取结果,查找另一个搜索查询,查找另外两个搜索查询,然后响应。所以你让 LLM 决定控制流。

我认为可能还有其他一些更值得关注的事情与此相关。因此,工具使用通常与代理相关。我认为这是有道理的。因为当您拥有 LLM 来决定做什么时,它决定做什么的主要方式是通过工具使用。所以我认为这些事情是相辅相成的。记忆的某些方面通常与代理相关。我认为这也很有道理,因为当您拥有 LLM 来决定做什么时,它需要记住它之前做过什么。它和工具使用以及记忆有点松散地联系在一起。但对我来说,当我想到代理时,它实际上是拥有一个 LLM,决定应用程序的控制流。

帕特·格雷迪:哈里森,我刚才听到的很多内容都是关于决策的。我一直认为代理是一种行动。这两件事是相辅相成的吗?代理行为是否更多地是其中之一而不是另一个?您如何看待这个问题?

哈里森·蔡斯:我认为它们是相辅相成的。我认为我们看到的很多代理人所做的就是决定采取什么行动,无论出于何种意图和目的。我认为采取行动的最大困难在于决定采取什么正确的行动。所以我认为解决一种问题自然会引出另一种问题。在你决定行动之后,通常围绕 LLM 的系统会执行该行动并将其反馈给代理人。所以我认为,是的,所以我认为它们是相辅相成的。

Sonya Huang:那么,代理与连锁机构(chain)之间的主要区别似乎在于,LLM 本身决定下一步要采取什么步骤、下一步要采取什么行动,而不是将这些事情硬编码。这是区分代理的公平方法吗?

Harrison Chase:是的,我认为是这样。而且还有不同梯度。举一个极端的例子,你可能有一个路由器来决定走哪条路。所以在你的链中可能有一个分类步骤。所以 LLM 仍然在决定做什么,但这是一种非常简单的决定做什么的方式。你知道,在另一个极端,你有这些自主代理类型的东西。然后中间有整个范围。所以我认为这基本上是正确的,尽管我只想指出,现在 LLM 领域的大多数事情都存在很多细微差别和灰色地带。

LangChain在代理生态系统中扮演什么角色?

Sonya Huang:明白了。所以就像从控制到完全自主决策和逻辑的频谱。这些都属于代理的频谱。很有趣。您认为 LangChain 在代理生态系统中扮演什么角色?

哈里森·蔡斯:我认为现在我们真正关注的是让人们能够轻松地创造介于两者之间的事物。出于多种原因,我们认为这是目前构建代理的最佳时机。因此,我们看到一些完全自动化的事物引起了人们的极大兴趣,并推出了许多原型。完全自动化的事物有很多好处,而且实际上构建起来相当简单。但我们看到它们经常偏离轨道。我们看到人们想要更受约束的事物,但比链条更灵活、更强大。

因此,我们最近关注的重点是,这是一个能够创建这些代理的编排层,特别是这些介于链和自主代理之间的中间事物。我可以更深入地了解我们在那里到底在做什么。但从高层次来看,这就是编排框架的一部分,我们设想中的 LangChain 就位于这里。

Sonya Huang:明白了。因此,有链条,有自主代理,中间有一个范围,而您的最佳点就在中间某个地方,使人们能够构建代理。

Harrison Chase:是的,而且显然,随着时间的推移,情况发生了变化。因此,回顾 LangChain 的发展历程是一件很有趣的事情。你知道,我认为 LangChain 刚开始时实际上是多个链的组合。然后我们有了这个类,这个代理,执行器类,基本上就是这个自主代理。然后我们开始向该类添加一些控件。

最终,我们意识到人们想要的灵活性和控制力远远超过我们通过这一类提供的。所以,最近,我们在 LangGraph 上投入了大量资金,它是 LangChain 的扩展,真正针对的是介于两者之间的可定制代理。我们的重点随着时间的推移也发生了变化,就像这个领域一样。

代理商会成为下一个风口吗?

Sonya Huang:非常有趣。也许还有最后一个问题。我们的核心信念之一是,代理是人工智能的下一波浪潮,而我们这个行业正在从副驾驶转向代理。我很好奇您是否同意这种看法,为什么?

哈里森·蔡斯:是的,我大体上同意这种看法,我认为这让我如此兴奋的原因是副驾驶(Copilot)仍然依赖于人类的参与。因此,通过外部系统(例如另一个系统)完成的工作量几乎有一个上限。因此,从这个意义上说,它有点限制。

我确实认为,在什么是正确的用户体验和人机交互模式方面,确实有一些非常有趣的想法。但我确实认为它们更像是一个代理在做一些事情,也许会与你联系,而不是一个一直在循环中的副驾驶,我只是认为,如果他们做的越多,它就越强大,给你的杠杆就越大,这也是非常矛盾的,因为它来了,你让它自己做的事情越多,它搞砸或出轨的风险就越大。所以我认为找到这个正确的平衡将是非常非常有趣的。

第一个自主代理没有发挥作用,为什么?

Sonya Huang:我记得当时大概是 2023 年 3 月左右。当时有一些自主代理真正吸引了大家的想象力,比如 BabyAGI AutoGPT 等。我记得 Twitter 对此非常非常兴奋。而且看起来代理架构的第一次迭代并没有完全满足人们的期望。您认为这是为什么呢?您认为我们现在处于代理炒作周期的哪个阶段?

Harrison Chase:是的,我想首先考虑一下代理炒作周期。我认为 AutoGPT 绝对是开始。而且,我的意思是它是有史以来最受欢迎的 GitHub 项目之一。所以我认为炒作周期,我想从 2023 年春季开始到 2023 年夏季左右。然后我个人觉得从夏末到 2024 年新年开始,会有一个低迷、下降趋势,我认为从 2024 年开始,我们开始看到一些更现实的东西上线。我想指出我们在 LangChain 使用 Elastic 所做的一些工作,例如,他们有类似 Elastic Assistant 和 Elastic Agent 的产品。所以我们看到 Klarna 客户支持机器人上线并受到了很多炒作。我们看到了 Devin,看到了 Sierra。在代理领域,这些其他公司开始涌现。

因此,我认为,考虑到这个炒作周期,谈论为什么 AutoGPT 风格的架构实际上不起作用,它非常通用且不受约束。我认为这让它非常令人兴奋并吸引了人们的想象力。但我认为,实际上,对于人们想要自动化、提供即时商业价值的事情,他们希望这些代理做的事情实际上有很多,他们希望这些代理做的是更具体的事情。而且他们希望代理遵循的规则真的很多,或者他们希望代理以特定的方式做事。

所以我认为在实践中,我们看到这些代理更像是我们所说的自定义认知架构,其中有某种方式来做你通常希望代理做的事情。而且肯定有一定的灵活性。否则,你知道,你只需要编码就可以了。但这是一种非常有针对性的思考方式。这就是我们今天看到的大多数代理和助手。这只是更多的工程工作。这更像是尝试一些东西,看看什么可行,什么不可行,而且这更难做到。所以它需要更长的时间来构建。我认为这就是为什么一年前它不存在的原因,或者类似的原因。

什么是认知架构?

Sonya Huang:既然您提到了认知架构,我很喜欢您思考它们的方式,您能否解释一下,例如,什么是认知架构?以及,对于我们应该如何思考它们,是否有一个良好的思维框架?

哈里森·蔡斯:是的,所以我对认知架构的看法基本上是你的 LLM 应用程序的系统架构是什么?我的意思是,如果你正在构建一个应用程序,那么其中有一些步骤会使用算法。你用这些算法做什么?你只是用它们来生成最终答案吗?你用它们在两个不同的东西之间路由吗?你有一个非常复杂的系统,有很多不同的分支吗?也许有一些循环在重复?或者你有一个漂亮的循环,你基本上会循环运行这个 LLM 吗?这些都是认知架构的不同变体,认知架构只是一种奇特的说法,比如从用户输入到用户输出,沿途发生的 LLM 调用的数据信息流是什么。

我们越来越多地看到,尤其是当人们试图让代理真正投入生产时,流程是特定于他们领域内的应用程序的。因此,他们可能希望立即进行一些特定检查,之后可能需要执行三个特定步骤。然后每个步骤可能都有一个循环选项或两个单独的子步骤。

因此,我们认为这些更像是,如果你把它想象成你正在绘制的图表,我们会看到越来越多的自定义和定制图表,因为人们试图约束和引导代理完成他们的应用程序。我之所以称之为认知架构,是因为我认为 LLM 的很多功能都围绕着推理和思考要做什么。所以,你知道,我可能会有一个关于如何完成任务的认知心理模型。我基本上只是将这个心理模型编码到某种软件系统中,某种架构中。

定制和硬编码是世界的发展方向还是权宜之计?

帕特·格雷迪:您认为这就是世界的发展方向吗?因为我听到了两点。第一,它是定制化的。第二,它是相当强大的,就像它在很多方面都是相当硬编码的。您认为这就是我们的发展方向吗?或者您认为这只是权宜之计,在某个时候,会出现更优雅的架构或一系列默认的参考架构?

Harrison Chase:这是一个非常好的问题。我认为我花了很多时间思考这个问题,所以,在极端情况下,你可以提出一个论点,如果模型在规划方面变得非常非常优秀和可靠,那么你可能拥有的最好的东西就是这个循环运行的 for 循环,调用 LLM,决定要做什么,采取行动并再次循环。对于我希望模型如何表现的所有这些限制,我只需将其放在我的提示中,模型就会明确地遵循这些限制。我确实认为模型在规划和推理方面会变得更好。出于各种原因,我并不认为它们会达到最佳做事方式的水平。

我认为,首先是效率。如果你知道你总是想在步骤 B 之后执行步骤 A。你可以按顺序排列。其次,可靠性。就像我们正在谈论的仍然是非确定性的事情,特别是在企业环境中,你可能会想要更舒适一点,如果它总是应该在步骤 B 之后执行步骤 A,它实际上总是会在步骤 B 之前或在步骤 B 之后执行步骤 A。我认为创建这些东西会变得更容易,就像我认为它们可能会开始变得越来越少,越来越复杂。

但实际上,这可能是我提出的一个热门观点或有趣观点,您可以说,循环运行的架构,您可以将其视为一种非常简单但通用的认知架构。然后我们在生产中看到的是定制和复杂的,有点像认知架构。我认为有一个单独的轴,它就像复杂但通用的,定制或复杂但通用的认知架构。所以这将是一个非常复杂的规划步骤和反射循环,或者像一个思想树或类似的东西。我实际上认为这个象限可能会随着时间的推移而消失,因为我认为很多通用规划和通用反射将被训练到模型本身中。但仍将有一堆非通用训练或非通用规划、非通用反射、非通用控制循环,基本上永远不会出现在模型中。是的,无论如何。所以我认为这两个极端,我非常看好。

Sonya Huang:我想你几乎可以认为 LLM 进行的是一般的代理推理。但你需要特定领域的推理。而这些东西你无法真正构建到一个通用模型中。

Harrison Chase:100%,我认为,我认为考虑定制认知架构的一种方式是,你基本上是在将规划责任从 LLM 中转移,并将其交给人类。而其中一些规划,你会越来越倾向于模型,越来越倾向于提示,但我认为他们总是会这样,我认为很多任务实际上在规划中相当复杂。所以我认为我们还需要一段时间才能获得能够非常可靠地做到这一点的现成产品。

我们同时取得了很大进展,但仍有很大的进步空间

Sonya Huang:在过去的六个月里,我们似乎在代理方面取得了巨大的进展。我读过一篇论文,普林斯顿 SWE 论文,其中他们的编码代理现在可以解决 12.5% 的 GitHub 问题,而 RAG 时只有 3.8%。所以感觉我们在过去六个月里取得了巨大的进展,但 12.5% 还不足以取代实习生,对吧?所以感觉我们还有很大的发展空间。我很好奇,您认为对于总代理和正在构建代理的客户来说,我们处于什么位置?比如,他们是否已经达到了,我认为不是 5 个 9 的可靠性,但他们已经达到了阈值,他们需要将这些代理部署到实际面向客户的部署中?

Harrison Chase:是的,所以我认为 SWE 代理是一种相对通用的代理,因为它有望在一系列不同的 GitHub 存储库中工作。我认为,如果您查看 Vercel 的 v0 之类的东西,它可能比 12.5% 更可靠,对吧?所以我认为这说明,是的,肯定存在可靠性不是五个九的自定义代理,但它们正在生产中使用。所以 Elastic,我认为我们已经公开谈论过他们目前如何做到了,我认为,多个代理。我想本周是 RSA,我认为他们会在 RSA 上宣布一些新的东西,那就是代理。是的,我没有关于可靠性的确切数字,但它们足够可靠,可以投入生产。通用代理仍然很难。是的,这就是更长、更长的上下文窗口、更好的规划、更好的推理,将帮助那些通用代理的地方。

关注如何让你的啤酒味道更好

Sonya Huang:你和我分享了杰夫·贝佐斯的名言,他说“专注于如何让你的啤酒更好”。我认为这指的是 20 世纪初,啤酒厂试图自己发电。我认为今天很多公司都在思考类似的问题,比如,你认为控制你的认知架构真的会让你的啤酒味道更好吗?打个比方说?或者,你放弃对模型的控制,只构建 UI 和产品?

Harrison Chase:我认为这可能取决于你正在构建的认知架构的类型?回到之前的一些讨论,如果你正在构建一个通用的认知架构,我认为这不会让你的啤酒味道更好。我认为模型提供商将致力于这个总体规划,我认为我们会致力于这些你可以立即尝试的通用认知架构。

另一方面,如果你的认知架构基本上就是你,将你的支持团队对某事的看法、内部业务流程或你所知道的最佳方式编纂成法典,比如开发代码、开发这种特定类型的代码或这种特定类型的应用程序,是的,我认为这绝对会让你的啤酒味道更好,特别是如果我们要去一个这些应用程序正在工作的地方。然后就像逻辑、定制的业务逻辑或心理模型,我现在正在将这些 LLM 拟人化,但就像这些东西的模型一样,100% 地发挥最佳作用。就像我认为这是你销售的关键产品,在某种程度上,我认为用户体验、用户界面和分销等一切都绝对仍然发挥着作用。但是,是的,我在通用和定制之间做出了区分。

弹出一个关卡,那又怎么样?

帕特·格雷迪:哈里森,在我们详细讨论人们如何构建这些东西之前,我们能不能快速进入一个层次?我们的创始人唐·瓦伦丁 (Don Valentine) 因问“那又怎样?”而闻名。所以我的问题是,那又怎样?让我们想象一下,自主代理运行完美无缺。这对世界意味着什么?如果发生这种情况,生活会有什么不同?

哈里森·蔡斯:我认为从高层次来看,这意味着,作为人类,我们关注的是不同的事物。所以我认为目前许多行业中都有很多机械重复的工作。因此,我认为代理的理念是,很多工作将会被自动化,让我们从更高层次思考这些代理应该做什么,也许可以利用他们的输出来做更有创意的事情,或者在这些输出的基础上做更多类似更高杠杆的事情。

所以,我认为,你可以想象一下,启动一家公司,将很多原本需要雇佣员工才能完成的职能外包出去。这样,你就可以扮演 CEO 的角色,聘请营销代理、销售代理等,基本上可以将很多工作外包给代理,让你去做很多有趣的战略思考、产品思考,这可能有点取决于你的兴趣所在。但我认为,从高层次来看,它将让我们自由地去做我们想做的事情和我们擅长的事情,并自动化很多我们不一定想做的事情。

代理商从哪里获得关注?

帕特·格雷迪:您今天在现场和制作中看到过什么有趣的例子吗?

Harrison Chase:我的意思是,我认为最大的问题在于,有两种类型的代理或代理领域开始受到更多关注,一种是客户支持,一种是编码。所以我认为客户支持就是一个很好的例子,比如,我认为,你知道,人们经常需要客户支持,我们在 LangChain 也需要客户支持。因此,如果我们可以雇佣代理来做这件事,那将非常有力。

编码很有趣,因为我认为编码的某些方面,我的意思是,这可能是一个更哲学的辩论。但我认为编码的某些方面确实需要创造性,而且确实需要很多产品思维、很多定位等等。编码的某些方面也会限制人们的创造力,或者说,不是限制,而是阻碍人们发挥创造力。所以,如果我妈妈有一个网站创意,她不知道如何编写代码,对吧?但如果有一位经纪人可以做到这一点,她就可以专注于网站创意,以及网站范围的确定,但可以实现自动化。

所以我想说客户支持,绝对的,它今天正在产生影响。编码,这方面有很多兴趣。我认为我们还没有达到,我认为它不像客户支持那么成熟。但就有很多人在做有趣的事情的领域而言,这将是第二个值得关注的领域。

Pat Grady:你对编码的评论很有意思,因为我认为这是我们对人工智能非常乐观的原因之一。人工智能可以缩小从想法到执行的差距,或者缩小从梦想到现实的差距,你可以想出一个非常有创意、引人注目的想法。但你可能没有工具可以把它变成现实,而人工智能似乎非常适合这一点。我认为 Figma 的 Dylan 也经常谈论这个话题。

哈里森·蔡斯:是的,我认为这可以追溯到这样一种想法,即通过自动化消除阻碍制造的事物——我喜欢“从想法到现实”这个措辞——它自动化了那些你不一定知道如何做或不想考虑但却需要创造你想创造的东西。我认为这也是我花了很多时间思考的事情之一,比如,在生成人工智能和代理时代,成为一名建设者意味着什么?所以,你知道,今天成为一名软件建设者意味着你要么成为一名工程师,要么雇佣工程师,或者类似的东西,对吧?但我认为,在代理和生成人工智能时代成为一名建设者意味着人们可以建造比今天更大的东西。因为他们手头有所有这些其他知识和所有这些其他建设者,他们可以以非常非常低的价格雇佣和使用。我的意思是,我认为,你知道,有些语言围绕着智能的商品化或类似的东西,因为这些法学硕士正在免费提供智能。我认为这确实有助于许多新建设者涌现。

反思、思路链,还是其他技术?

Sonya Huang:您提到了反射、思维链和其他技术,您能否说说,那么我们目前了解到的认知架构在代理性能方面能够做些什么?也许,我很好奇您认为最有前途的认知架构是什么?

Harrison Chase:是的,我认为也许值得讨论一下为什么 AutoGPT 之类的东西不起作用。因为我认为很多认知架构都是为了抵消其中的一些问题而出现的。我想,很久以前,LLM 甚至无法很好地推理出第一步要做什么以及他们应该做什么作为第一步。所以我认为提示技术,比如思路链,在那里真的很有用,它们基本上给了 LLM 更多的空间去思考和一步一步地思考,比如,他们应该为特定的单一步骤做些什么。然后,这实际上开始越来越多地被训练到模型中。他们默认这样做。基本上每个人都希望模型能做到这一点,所以是的,你应该把它训练到模型中。

我认为当时有一篇很棒的论文,由姚顺宇撰写,名为 ReAct,基本上是第一个用于代理或类似东西的认知架构。它所做的一件事是,它要求 LLM 预测要做什么,这就是行动,但随后它添加了这个推理组件,所以它有点类似于思维链,它基本上添加了这个推理组件,他把它放在一个循环中,他要求它在每个步骤之前进行推理,然后你就可以在那里运行它。因此,随着模型经过训练,显式推理步骤实际上变得越来越不必要,就像它们经过思维链训练一样,显式推理步骤变得越来越不必要。

因此,如果您看到今天有人在做类似 ReAct 风格的代理,他们通常只是使用函数调用,而没有像原始 ReAct 论文中那样明确的思维过程。但这种循环仍然与 ReAct 论文同义。所以,这在代理最初存在很多困难。我不会完全将它们描述为某种架构。我将它们描述为提示技术。

好了,现在我们已经开始工作了。那么,有哪些问题呢?两个主要问题基本上是规划,然后意识到你已经完成了。所以,我所说的规划,是指,当我在思考如何做事情时,无论是有意识还是无意识地,我都会制定一个计划,按照计划的顺序执行。然后我会去执行每个步骤。基本上,模型很难做到这一点,它们很难进行长期规划,很难制定出一个好的长期计划。然后,如果你在这个循环中运行它,在每一步中,你都在执行计划的一部分,也许它会完成,也许它不会完成。所以,你知道,如果你只是在这个循环中运行它,你就是在隐式地要求模型首先制定一个计划,然后跟踪它在计划上的进展并继续执行。

所以我认为,我们所见过的一些规划认知架构是,好的,首先,让我们添加一个明确的步骤,要求 LLM 制定计划,然后,你知道,让我们一步一步地执行该计划。我们将确保我们执行每一步,这只是一种强制模型生成长期计划的方式,并且在继续之前实际执行每一步,而不仅仅是像你知道的那样,生成一个五步计划,执行第一步,然后说,好的,我完成了,我完成了或诸如此类。

然后,我认为,一个独立但又有点相关的东西是反思的概念,它基本上就像,模型是否真的很好地完成了它的工作,对吗?所以,我可以制定一个计划,我将去获取这个答案。我可以从互联网上获取答案。也许它完全是错误的答案,或者我得到了糟糕的搜索结果或诸如此类的事情。我不应该只是返回那个答案,对吗?我应该考虑一下我是否得到了正确的答案。或者,我是否需要一遍又一遍地做某事,比如如果你只是在循环中运行它,你就是在要求模型隐式地执行此操作。因此,已经出现了一些认知架构来克服这个问题,基本上将其添加为一个明确的步骤,他们执行一个动作或一系列动作,然后要求模型明确地思考它是否做得正确。

因此,规划和推理可能是两种更受欢迎的通用认知架构。目前有很多自定义认知架构,但这些都与业务逻辑等密切相关。但规划和推理是通用架构,我希望它们在默认情况下越来越多地被训练到模型中。虽然我确实认为有一个非常有趣的问题,即它们在模型中的表现会有多好,但这可能是一个单独的长期讨论。

用户体验可以影响架构的有效性

Pat Grady:Harrison,您在 AI Ascent 上谈到的事情之一是用户体验,我们通常认为它处于架构的另一端,您知道,架构在幕后,而用户体验在前台。但似乎我们身处一个有趣的世界,用户体验实际上可以影响架构的有效性,例如,通过让 Devin 回溯到规划过程中事情开始偏离轨道的那个点。您能否谈谈用户体验以及它在代理或 LLMS 中的重要性,以及您在那里看到的一些有趣的事情?

Harrison Chase:是的,我对用户体验非常着迷。我认为这里有很多非常有趣的工作要做。我认为这之所以如此重要,是因为这些 LLM 仍然不完美,仍然不太可靠,而且容易出错。我认为这就是为什么聊天对于一些初始交互和应用程序来说是一种如此强大的用户体验。您可以轻松看到它在做什么,它会回传它的响应,您可以通过回复它来轻松纠正它,您可以轻松地提出后续问题。所以我认为聊天显然已经成为目前的主导用户体验。我确实认为聊天有缺点。你知道,它通常就像一条人工智能消息,一条人类消息。人类在很大程度上处于循环之中,它非常像副驾驶。我认为你越能将人类从循环中移除,它能为你做的就越多,它就能为你工作。我认为这是极其强大和有益的。

但是,LLM 并不完美,而且容易出错。那么你如何平衡这两件事呢?谈到 Devin,我认为我们看到的一些有趣的想法是,基本上有一个非常透明的列表,列出代理所做的一切,对吗?你应该能够知道代理做了什么。这似乎是第一步。第二步可能是能够修改它正在做什么或已经做什么。所以如果你发现第三步搞砸了,你可以倒回那里,给它一些新的指示,甚至只是编辑,这有点像手动决定,然后从那里开始。

我认为除了这种倒带和编辑之外,另一种有趣的用户体验模式是。一种是类似于收件箱的想法,代理可以在需要时联系人工。所以你可能有 10 个代理在后台并行运行,有时可能需要向人工寻求澄清。所以你有一个电子邮件收件箱,代理会向你发送“救命,救命,我现在需要帮助”之类的信息,然后你就去帮助它。

类似的东西就像是审查它的工作,对吧?所以我认为这真的很强大。我们已经看到很多代理在做研究时编写不同类型的东西,比如研究型代理,有一个很棒的项目,GPT Researcher,它有一些非常有趣的代理架构。我认为这是进行这种审查的好地方。好吧,比如你可以让代理写一份初稿,然后我可以审查它。我基本上可以留下评论。而且,有几种不同的方法可以实现它。所以你知道,最不复杂的方式可能是我一次留下一堆评论,把它们发给代理,然后它就会去修复所有的评论。另一个非常非常有趣的用户体验是这种同时协作的方式。就像 Google Docs 一样,但人类和代理同时工作,比如我留下一条评论,代理会修复它,而我正在发表另一条评论或类似的事情。我认为这是一个独立的用户体验。设置和运行起来相当复杂。是的,我认为这很有趣。

还有一种我认为值得思考的 UX 问题,基本上就是这些代理如何从这些交互中学习,对吧?比如,我们谈论的是人类,比如,不断纠正代理或提供反馈。如果我不得不给出 100 次不同的同一条反馈,那会很令人沮丧,对吧,那会很糟糕。那么,系统架构是什么,使它能够从中开始学习,我认为这真的很有趣。你知道,我认为所有这些都还有待解决,我们在游戏中还处于非常早期的阶段,需要解决很多问题。但这是我们花了很多时间思考的问题。

哪些内容超出范围?

Pat Grady:实际上,这让我想起了你,我不知道你是否知道,但你在开发者社区中非常活跃,并且非常关注开发者社区中发生的事情以及开发者社区中人们遇到的问题,这在某种程度上可以说是传奇人物。所以 LangChain 直接解决了这些问题,你正在建立一个企业来解决这些问题。然后我想象你会遇到一堆超出范围的其他问题。所以我很好奇,在问题世界中,那些试图用 LLM 构建或试图构建 AI 的开发人员今天遇到了哪些有趣的问题,你们没有直接解决这些问题,如果你有其他业务,也许你会解决这些问题?

Harrison Chase:是的,我的意思是,我认为两个明显的领域是模型层和数据库层。因此,我们不会构建矢量数据库,我认为思考什么是正确的存储方式真的很有趣。但你知道,我们不会这样做。我们不会构建基础模型。我们也不会对模型进行微调,比如我们想帮助进行数据管理。绝对如此。但我们不会为此构建微调的基础设施。有 Fireworks 和其他类似的公司。我认为它们真的很有趣。我认为就人们目前遇到的问题而言,它们可能处于直接的底层。

我确实认为还有第二个问题,那里有第二个思考过程,那就是,如果代理确实成为未来的一部分,那么还会出现哪些其他基础设施问题?正因为如此,所以,你知道,我认为现在说我们会做什么或不会做什么还为时过早?因为坦率地说,我们还没有达到代理足够可靠的程度,无法让整个代理经济出现。

但我认为,你知道,代理人的身份验证、代理人的许可、代理人的支付,现在有一个非常酷的代理人支付初创公司,实际上,这是相反的,代理人可以付钱给人类做事,对吧?所以我认为这真的很有趣,如果代理人真的变得普遍,那么需要什么样的工具和基础设施呢?我认为这与开发者社区构建 LLM 应用程序所需的东西有点不同,因为我认为 LLM 应用程序已经出现了。代理人开始出现,但还没有完全出现。所以我认为这些类型的公司只是成熟度不同。

微调还是提示?

Sonya Huang:Harrison,你提到了微调,但事实上你们不会去那里。似乎两种架构的提示和调用以及微调几乎可以互相替代。你如何看待人们应该如何使用提示而不是微调的现状,以及你认为这会如何发挥作用?

Harrison Chase:是的,我不认为微调和认知架构可以互相替代。我不认为它们可以互相替代,实际上我认为它们在很多方面是互补的,因为当你拥有更多自定义认知架构时,你要求每个代理、每个节点或系统的每个部分执行的操作的范围就会变得更加有限。而这对于微调来说实际上变得非常非常有趣。

LangSmith 和 LangGraph?

Sonya Huang:实际上,关于这一点,您能谈谈 LangSmith 和 LangGraph 吗?就像 Pat 刚刚问您的,您没有解决哪些问题?我很好奇,您正在解决哪些问题?这与之前谈到的所有代理问题有关,比如,您所做的工作,我想是让管理状态更易于管理,让代理更易于控制,比如,您的产品如何帮助人们实现这一点?

Harrison Chase:是的,所以也许可以稍微回顾一下。说到 LangChain,当它首次推出时,我认为 LangChain 开源项目确实解决并解决了一些问题。我认为其中之一就是基本上标准化了所有这些不同组件的接口。因此,我们与不同的模型、不同的向量存储、不同的工具、不同的数据库等进行了大量的集成。因此,这一直是 LangChain 的一大价值主张,也是人们使用 LangChain 的原因。

在 LangChain 中,还有许多高级接口,可轻松使用 RAG 或 SQL Q&A 等功能。此外,还有一个较低级别的运行时,用于动态构建链。我所说的链,我们也可以称它们为 DAG,就像有向流一样。我认为这种区别很重要,因为当我们谈论 LangGraph 以及 LangGraph 存在的原因时,是为了解决一个略有不同的编排问题,即您想要这些具有循环的可定制和可控制的东西,它们仍然在编排空间中。但我在类似链和这些循环循环之间做出了区分。

我认为,使用 LangGraph 时,如果开始出现循环,就会出现很多其他问题,其中主要问题之一就是持久层,以便您可以恢复,以便让它们在后台以异步方式运行。因此,我们开始越来越多地考虑部署这些长期运行、循环、人为驱动的应用程序。因此,我们将开始越来越多地解决这个问题。

然后,贯穿所有这些的部分是 LangSmith,基本上从公司成立之初我们就一直在开发它。这有点像可观察性和 LLM 应用程序的测试。所以基本上,从一开始,我们就注意到你把 LLM 放在了系统的中心。LLM 是非确定性的,你必须对这类事情有良好的可观察性和测试,才能有信心将其投入生产。所以我们开始构建 LangSmith。无论是否与 LangChain 配合使用,都可以使用。里面还有一些其他的东西,比如提示中心,这样你就可以管理提示,一个人工注释提示,允许人工审核,我认为这实际上是至关重要的,就像我认为在这一切中,重要的是要问,这里到底有什么新东西?我认为这里最主要的新功能是这些 LLM。我认为 LLM 的主要新特点是它们不是确定性的,因此可观察性更为重要。而且测试也更加困难。具体来说,你可能希望人类更频繁地审查事物,而不是让他们审查软件测试,或诸如此类的事情。因此,许多工具、路由和 LangSmith 都有助于实现这一点。

现有的可观察性工具对 LLM 有何作用,是否需要新的架构/方法?

Pat Grady:事实上,Harrison,您是否有一种启发式方法,即现有的可观察性、现有的测试、现有的填空是否也适用于法学硕士?与法学硕士相比,法学硕士与法学硕士有很大不同,以至于您需要一种新产品或新的架构、一种新的方法?

Harrison Chase:是的,我想我已经从测试方面、从可观察性方面考虑了很多。我觉得这几乎就像,我觉得这里需要一些新的东西,这几乎更加明显。我认为这可能是因为对于这些多步骤应用程序,您只需要一定程度的可观察性即可获得这些见解。我认为很多 [产品],比如 Datadog,我认为它们确实有针对性,它们有这种出色的监控功能。但对于特定的跟踪,我认为您无法获得与使用 LangSmith 等产品轻松获得的相同级别的洞察力。我认为很多人花时间查看特定的跟踪,因为他们试图调试特定跟踪上出错的东西,因为使用 LLM 时会发生所有这些不确定性。因此,可观察性一直让人觉得那里有新的东西需要构建。

测试真的很有趣。我对此想了很多,我认为测试可能有两个新奇之处。一个是成对比较的概念。所以当我运行软件测试时,我通常不会比较结果,大多数情况下结果要么通过,要么失败。如果我比较它们,我可能会比较延迟峰值之类的东西,但不一定是两个单独的单元测试的成对。但是,如果我们看看一些 LLM 的评估,人们最信任的主要评估是 LLMSYS,有点像竞技场,聊天机器人竞技场风格的东西,你可以并排判断两个东西。所以我认为这种成对的东西非常重要,与传统的软件测试截然不同。

我认为另一个因素基本上取决于你如何设置评估,在任何给定的时间点,你可能都没有 100% 的通过率。因此,随着时间的推移,跟踪这一点并查看你是否在进步或至少没有倒退变得非常重要。我认为这与软件测试不同,因为通常你会看到所有事情都通过了。

然后第三部分只是人类参与的循环组件。所以我认为你仍然希望人类能够查看结果,比如,我可能不想用错词,因为它有很多缺点,比如需要人类花费大量时间来查看这些东西。但这些通常比某些自动化系统更可靠。如果你将其与软件测试进行比较,软件可以测试二是否等于二,就像我通过查看它就能知道二是否等于二一样。所以弄清楚如何将人类纳入这个测试过程的循环中也非常有趣、独特和新颖。我认为。

快问快答

帕特·格雷迪:我有几个非常普遍的问题要问您。

哈里森·蔡斯:很酷,我喜欢一般性的问题。

帕特·格雷迪:在人工智能领域,您最钦佩谁?

Harrison Chase:这个问题问得很好。我的意思是,我认为 OpenAI 在过去一年半中取得的成就令人印象深刻。所以我认为 Sam,以及那里的每个人,我认为所有人都非常钦佩他们做事的方式。我认为 Logan 在那里时在将这些概念带给人们方面做得非常出色。Sam 显然应该为许多已经发生的事情获得大量赞誉。

他们不太出名,但我认为 David Dohan 是一位绝对了不起的研究员。他做了一些早期的模型级联论文,我在 LangChain 的早期就和他聊过。他说,是的,他对我思考事物的方式产生了难以置信的影响。所以我非常钦佩他的做事方式。另外,你知道,我正在讨论这个问题的所有可能答案,但我认为马克·扎克伯格和 Facebook 正在利用 Llama 和大量开源技术取得巨大成功。我还认为,作为一名 CEO 和领导者,他和公司接受这一点的方式令人印象深刻。所以我非常钦佩他。

帕特·格雷迪:说到这个,有没有哪位 CEO 或领导者是你最想效仿的?或者你从谁身上学到了很多关于自己领导风格的知识?

哈里森·蔡斯:我觉得这是个好问题。我绝对认为自己更像是一个以产品为中心的 CEO。所以我认为扎克伯格在那里的表现很有意思。布莱恩·切斯基,我去年在红杉大本营听过他的演讲,真的很钦佩他对产品和公司建设的思考方式。所以布莱恩通常是我回答这个问题的首选。但我不能说我对他所做的一切都非常了解。

帕特·格雷迪:如果您能向那些试图建立人工智能的现任或有抱负的创始人提出一条建议,您会给他们什么建议?

哈里森·蔡斯:只是建造,只是尝试建造?现在还为时过早,还有很多东西需要建造?是的,就像,你知道,GPT-5 即将问世,它可能会使一些你不熟悉的东西变得相关,但你会在这个过程中学到很多东西。我坚信这是一项变革性技术。所以你对它了解得越多越好。

帕特·格雷迪:关于这个,我简单说一个轶事。只是因为我对这个答案很感兴趣。我记得在 2023 年初的第一次 AI Ascent 上,当时我们才刚刚开始更好地了解你。我记得你坐在那里,整天都在推代码。就像人们在台上讲话,你在听。你整天都坐在那里推代码。所以当建议只是构建时,你显然是一个会采纳自己建议的人。

哈里森·蔡斯:我想,那天正是 OpenAI 发布插件或其他东西的日子,所以有很多事情要做,但我认为我在今年的 Sequoia Ascent 上没有这样做,所以很抱歉让你失望了。

Sonya Huang:感谢您的收看。我们非常感激。

本集中提到

本集中提到:

  • ReAct:语言模型中的协同推理和行动,第一个代理认知架构

  • SWE-agent:代理-计算机接口实现自动化软件工程,来自普林斯顿大学研究人员的小型开源软件工程代理

  • Devin:来自 Cognition 的自主软件工程

  • Sierra:用于客户服务的代理对话智能

  • V0:来自 Vercel 的生成 UI 代理

  • GPT 研究员: 研究代理

| |