打开网易新闻 查看精彩图片

AI智能体需要技能——特定的程序性知识——才能良好地执行任务,但它们无法自我学习,一项新研究表明。

研究作者开发了一个新的基准测试工具SkillsBench,该工具在11个领域的84项任务上评估智能体AI的表现,包括医疗保健、制造业、网络安全和软件工程等领域。研究人员在三种条件下观察每项任务:无技能(智能体仅接收指令)、有策划技能(提供目录、代码片段和资源来帮助它)以及自生成技能(智能体没有技能但被提示开发它们)。

典型任务包括对npm依赖项进行安全审计以查找漏洞,或分析癌细胞系数据中的差异蛋白质表达。

最佳表现来自具有策划技能的智能体,其得分平均比无技能智能体高16.2个百分点,这表明AI目前还无法摆脱人类干预。即便如此,在84项任务中的16项任务里,人类指导对结果产生了负面影响。

不同行业领域的表现差异很大,策划技能在医疗保健任务中影响最大,但在软件工程方面影响很小。

被要求生成自己技能的智能体表现没有提升,显示AI仍然需要一些人类提示才能完成工作。

Q&A

Q1:SkillsBench是什么?它能做什么?

A:SkillsBench是研究人员开发的新基准测试工具,用于评估智能体AI在84项任务上的表现,涵盖医疗保健、制造业、网络安全和软件工程等11个领域。

Q2:AI智能体在哪种条件下表现最好?

A:具有策划技能的智能体表现最佳,其得分平均比无技能智能体高16.2个百分点,这表明人类提供的技能指导对AI表现至关重要。

Q3:AI智能体能否自己学会新技能?

A:研究显示不能。被要求生成自己技能的智能体表现没有任何提升,证明AI仍然需要人类的提示和指导才能有效完成工作。