企业构建可信赖智能体的四个关键策略

至顶头条

2026-03-23 21:06 ·北京 ·优质互联网领域创作者

智能体将会影响每一个职业角色。如果你的公司还没有开始使用智能体，它很快就会使用，无论是通过现成的软件产品还是利用大语言模型和数据源的内部工具。

探索如何在工作中使用智能体的专业人士，最好寻求最佳实践指导。汤森路透实验室首席技术官Joel Hron就是这样一个信息来源，他正在帮助这家信息服务公司利用生成式AI、机器学习和智能体技术。

Hron告诉ZDNET，汤森路透使用内部模型和现成工具相结合的方式来推动其AI创新。除了大型科技公司前沿实验室的进展外，Hron和他的团队还确保公司充分利用其专有知识和资产。

"如果你看看我们擅长做的核心工作，那就是能够将人类专业知识和信息综合成判断，然后提供给专业人士，"他说。

"这种专业知识的交付机制正在演进。传统上，它通过软件交付。但现在越来越多地通过智能体或智能体加软件的方式交付。"

Hron指出了汤森路透在智能体方面的几个重要成就，包括AI驱动的法律研究工具Westlaw Advantage和公司的深度研究智能体，后者能像研究员一样审查洞察并制定策略。

通过这些探索，Hron总结出了专业人士可以用来构建可信赖智能体AI系统的四个关键经验。

建立有效的评估体系

Hron表示首先要关注的领域是评估："你需要知道什么是好的样子。"

虽然对评估的关注听起来是一个显而易见的要求，但Hron说这是一个很难做好、量化和系统化的过程。

"在过去三年里，我们一直说这是构建良好AI系统最重要的事情之一，在智能体时代，这一点仍然成立，"他说。

Hron的团队通过几种方式跟踪和衡量智能体的成功。首先，他们利用公共基准测试，他说这些测试为新模型的积极潜在性能提供了良好的早期指标。

其次，他们开发了自己的内部基准测试，并为自动评估提供了明确的指导："我们的过程不是简单地说'生成的答案与好答案有多接近？'，而是真正定义'什么使答案变得好？'"

最后，汤森路透让人类参与其中，确保评估超越自动化评估的范围。

"自动化评估帮助我们的开发团队更快地推动工作，他们可以相对快速地测试很多想法，这很好。但在我们发布之前，我们仍然希望获得人类专家的信心和他们对性能的评估，"他说。

"继续依赖这种方法让我们能够发布在市场上表现良好的优秀产品。我认为人类输入是我们能够做好这项工作并充满信心地完成它的关键要素。"

深入理解智能体运作机制

Hron建议专业人士要深入理解智能体的功能以及它们如何随时间运作。

"将这种认知与用户体验紧密结合变得越来越重要，"他说。"如果你把这些智能体系统看作是人类AI协作者，那么人类和智能体需要有共同的语言和共同的接口来协作。"

Hron说，这种共同语言和接口应该让人类对智能体的思考过程有宝贵的洞察，反之亦然。

"这个领域是一种新的重要UI体验，我认为将对智能体的深度技术理解与良好的用户体验紧密结合是至关重要的。"

虽然许多专家都在谈论人类/智能体耦合的重要性，但Hron说成功的关键很简单：将业务团队聚集在一起。

"这个过程不是科学的——而是强迫我的设计师与数据科学家坐在一起，谈论正在发生的事情，"他说。"我们越能让这两类人接近，他们越能经常坐在一起，你就能更好地实现这两个领域之间思维的渗透。"

善用现有工具而非追求全能

尽管可能有炒作让你相信其他情况，但Hron说专业人士必须认识到智能体和驱动它们的模型远非无所不知。

Hron说AI模型在三个维度上正在改进：编写代码、执行计划和多步推理。最新的进展允许通过其他软件工具扩展模型能力。

"这种发展对我们公司来说利大于弊，因为这意味着，如果我们能够分解我们几十年来向市场销售的数百个应用程序，那么我们就拥有了为专业人士提供经过验证的能力，"他说。

"如果我们能将这些元素分解为智能体的工具，那么我们实际上在很大程度上扩展了这些模型的能力，这确实是智能体的未来。"

Hron建议专业人士不要将智能体AI视为试图做所有事情的全知模型，而是给智能体提供人们已经使用的经过验证的能力，这是他团队的重点。

"我们正在审视我们的系统，问自己：'好的，我们为人类用户构建了这个系统很多年了。现在，智能体要与这个系统协作需要什么样的人机工程学？你如何调整过程使其有利于与智能体协作，而不一定在所有情况下都与人类协作？这种方法对工具的外观、感觉和性能意味着什么？'"

持续学习与行业合作

汤森路透实验室最近推出了AI信任联盟，这是一个由构建者主导的论坛，汇集了来自Anthropic、AWS、Google Cloud、OpenAI和汤森路透的高级AI研究人员，讨论如何将信任工程化到智能体系统中。

Hron说，该联盟公开分享经验教训，为围绕可信赖AI的更广泛行业对话提供信息，也帮助他团队的高级成员从行业先驱那里学习最佳实践。

"我们试图在这些模型如何运作方面推进可解释性和透明度的关注，"他说。

Hron说，技术先驱和他们的模型大大减少了从零准确率到90%准确率所需的时间和精力。

"但我们不是在玩90%的游戏，"他说。"我们在玩99%和99.9%的游戏，我们必须考虑如何获得那额外的一个九或两个九的准确率，这是信任的区别。"

作为这一过程的一部分，汤森路透也在与学术机构合作。去年年底，该公司宣布了一项为期五年的合作伙伴关系，在伦敦帝国理工学院创建联合前沿AI研究实验室。

"在这些举措中，我们专注于最后两个九的准确率，因为当我们向市场发布产品时，这就是人们希望从我们这里购买的东西，"Hron说。

"前沿技术组织将继续推动可能性的极限。但对我们来说，边际就是在法律、税务和合规世界中赢得或失去竞争优势的地方。这就是我们真正需要做对的事情。"

Q&A

Q1：汤森路透如何评估智能体系统的性能？

A：汤森路透采用三种方式评估智能体成功：利用公共基准测试作为早期性能指标，开发内部基准测试并明确定义"什么使答案变得好"，以及让人类专家参与评估过程。他们强调自动化评估帮助快速测试想法，但在产品发布前仍需要人类专家的信心和性能评估。

Q2：如何实现人类与智能体的有效协作？

A：关键在于建立共同语言和接口，让人类和智能体能够相互理解思考过程。实际操作中，需要将设计师与数据科学家聚集在一起讨论，通过频繁的团队协作实现两个领域思维的渗透，将对智能体的深度技术理解与良好的用户体验紧密结合。

Q3：智能体是否能替代所有现有的软件系统？

A：不是的。汤森路透认为智能体不应被视为试图做所有事情的全知模型，而应该利用现有经过验证的能力。他们的策略是将几十年来的应用程序分解为智能体的工具，通过现有的专业能力来扩展模型功能，这才是智能体发展的真正未来。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴