据介绍,自动化工作流和 AI Agent,有望极大提升人类生产力。而函数调用,则是自动化工作流和 AI Agent 的核心能力。

尽管基于云端的大型语言模型,在函数调用等任务中展现出非凡的能力,但它们往往伴随着高昂的成本、隐私泄露的风险、以及对于网络资源的高需求。

现有的 on-device 模型虽然能在一定程度上解决这些问题,但在准确性和响应速度上还有很大提升空间。

为此,美国斯坦福大学团队开发出一款名为 Octopus 的模型,让边缘设备上的语言模型,在函数调用的准确性和延迟上得以超越 GPT-4,同时还能大幅降低计算开销。

这让边缘设备能够轻松拥有“超级 AI Agent”的能力,从而能为边缘设备语言模型和 AI Agent 的研究提供新思路,推动 on-device AI agent 的进一步发展。

据介绍,Octopus 模型的最终目标旨在实现一个真正的“超级 AI 代理”。

它不仅能像 Siri 那样完成简单的查询任务和控制任务,还能根据用户指令自动地调用各种 APP 的应用程序编程接口(API,Application Programming Interface),从而执行更加复杂的工作流。

从长远来看,这项技术有望改变人机交互的方式,让普通用户也能轻松“编程”,让手机、电脑、电器等设备变得更加智能化。

对于 APP 开发者而言,他们可以利用 Octopus 实现应用的全自动化,从而大幅提升用户体验。

对于智能手机、智能家居等消费电子产品来说,Octopus 则有望成为它们的“标配”,让设备真正懂得用户需求,并能帮助用户完成工作,而不是仅仅语音对话。

“从长远来看,Octopus 有望成为通用人工智能的重要里程碑,让语言模型能真正行动起来,感知、理解和改造世界。”研究人员表示。

与此同时,Octopus 代表着 AI 代理技术的新方向,即“云-边-端协同”。

其中,云端大模型负责知识的学习和积累,边缘设备模型负责实任务的实时执行,再辅以个人终端设备提供人机交互。

通过三者的分工和协作,既能发挥云端算力的优势,又能兼顾隐私保护,还能提供较低的延迟、以及较低成本的交互体验。

从产业趋势看,随着 5G、物联网等新基建的推进,万物智联已成大势所趋。

AI 代理将不再局限于手机,而是遍布各种智能设备,融入生活的方方面面。

在这样的背景之下,像 Octopus 这样的轻量化、本地化的 AI 技术,有望成为每个人的“贴身秘书”。

更重要的是,使用 Octopus 的时候全程都在用户设备上完成,无需将数据上传到云端。

这能从根本上保护用户隐私,化解人们对于 AI 滥用个人信息的担忧。

“我们的目标是用 AI 来赋能每个人,而不是侵犯他们的权益。”研究人员表示。

而在开展本次研究之前,研究人员曾于 2024 年 1 月参加国际消费类电子产品展览会(CES,International Consumer Electronics Show)展会,展会的主题是 AI for all。

在展会上,他们看到各种公司都在软件和硬件上想法设法应用 AI。

其表示:“刚踏进拉斯维加斯会展中心,就被各种五光十色的展台和嘈杂的人群淹没了。”

“作为来自创业公司的与会者,我们白天在 CES 逛展,晚上还得回旅馆加班。才逛了一天,大伙儿已经有点累了,商量着是不是逛完 AI 展区和 SaaS 展区就回去。”研究人员继续表示。

幸好大家还是决定留下来多看看。其中,虚拟现实/增强现实展馆让他们大开眼界,虽然这个区域的展品所使用的 AI 技术还比较初级,但是那股把 AI 运用到各种设备和软件中的劲头感染了他们。

汽车展馆更是未来科技的缩影,无人驾驶、车载 AI 助手......处处都是 AI 的身影。

研究人员表示:“逛着逛着我们意识到,把端侧 AI 和 AI 代理结合起来,将是一个大有可为的方向。更重要的是,各行各业似乎都需要这种技术。”

回来之后,他们启动了 Octopus 项目。期间,他们设计了训练数据集,确保模型能够理解各种真实世界的函数调用意图。

然后,其使用 Google 的 Gemini 模型自动生成大量(query,函数)数据,再通过人工方式剔除不合理的结果。

这种“用大模型训小模型”的思路非常有效,只需数千条样本,就能让 Octopus 在特定领域达到甚至超越 GPT-4 的表现。

随后,他们先后尝试了多种模型架构和训练方法。其中一个关键创新是引入了“functional token”的概念。

通过将每个 API 函数映射到一个独特的 token,模型可以直接预测该调用的函数,从而无需生成函数的完整名称。这不仅提高了预测准确性,还大幅减少了计算开销。

而为了全面评估模型性能,该团队构建了大规模的真实场景数据集。他们发现仅需数千条样本,Octopus 就能在特定领域达到甚至超越 GPT-4 的表现。

研究人员还针对不同硬件平台进行了适配和调优,最终实现了在手机上的流畅运行。

其表示:“当第一次看到 Octopus 在手机上流畅运行,并且速度如此快的情况下,准确度又如此之高。我们非常的惊讶,甚至以为是实验哪里出错了。”

但是,之后的反复验证证明:此次推出的 functional token 的确可以实现如此强大的函数调用能力。

日前,相关论文已以《Octopus v2:超级代理的设备上语言模型》(Octopus v2:On-device language model for super agent)为题发在 arXiv[1]。

打开网易新闻 查看精彩图片

图 | 相关论文(来源:arXiv)

NEXA AI 创始人兼首席科学家陈伟(斯坦福博士生)、NEXA AI 联合创始人兼首席技术官李志远(斯坦福毕业生)担任论文作者。

打开网易新闻 查看精彩图片

图 | 从左到右:李志远、陈伟(来源:资料图)

目前,Octopus 模型已能适配 Android 系统,涵盖打电话、发短信、设置闹钟、拍照等数十个常用功能。

研究团队计划进一步扩展到车载系统、智能家居等更多领域。

同时,他们也在探索多模态交互,让 Octopus 不仅能听懂语音指令,还能通过图像、视频等方式感知用户需求。

从更长远来看,他们希望让 AI Agent 走进各个行业和每个端设备。而这需要进一步赋予模型以学习、推理、规划等高层次能力,这也将是他们下一步的努力方向。

参考资料:

1.https://arxiv.org/abs/2404.01744

2.https://huggingface.co/NexaAIDev/Octopus-v2

运营/排版:何晨龙

打开网易新闻 查看精彩图片

01/ 澄清170多年学术争论:北大团队获得六角冰表面原子级分辨图像,刷新对于冰表面的传统认知

02/ 科学家研发种子筛选AI模型,预测准确性超过90%,实现高效数字化的抗病品种筛选

03/ 两百多年的物理效应迎新进展:中美联合团队发现低温莱顿弗罗斯特效应,在130℃下观察到液体悬浮

04/ 科学家研发数字非福斯特电路,功率处理能力提高3个数量级,能用于远距离声通讯或无线通信

05/ 清华团队远赴云南养蚊子,借此发现新型抗病毒细菌,为蚊媒传染病防控提供有力方案

打开网易新闻 查看精彩图片