斯坦福华人创业团队研发边缘设备模型，数千条样本就能在特定领域比肩GPT-4

DeepTech深科技

2024-06-20 19:59 ·北京

据介绍，自动化工作流和 AI Agent，有望极大提升人类生产力。而函数调用，则是自动化工作流和 AI Agent 的核心能力。

尽管基于云端的大型语言模型，在函数调用等任务中展现出非凡的能力，但它们往往伴随着高昂的成本、隐私泄露的风险、以及对于网络资源的高需求。

现有的 on-device 模型虽然能在一定程度上解决这些问题，但在准确性和响应速度上还有很大提升空间。

为此，美国斯坦福大学团队开发出一款名为 Octopus 的模型，让边缘设备上的语言模型，在函数调用的准确性和延迟上得以超越 GPT-4，同时还能大幅降低计算开销。

这让边缘设备能够轻松拥有“超级 AI Agent”的能力，从而能为边缘设备语言模型和 AI Agent 的研究提供新思路，推动 on-device AI agent 的进一步发展。

据介绍，Octopus 模型的最终目标旨在实现一个真正的“超级 AI 代理”。

它不仅能像 Siri 那样完成简单的查询任务和控制任务，还能根据用户指令自动地调用各种 APP 的应用程序编程接口（API，Application Programming Interface），从而执行更加复杂的工作流。

从长远来看，这项技术有望改变人机交互的方式，让普通用户也能轻松“编程”，让手机、电脑、电器等设备变得更加智能化。

对于 APP 开发者而言，他们可以利用 Octopus 实现应用的全自动化，从而大幅提升用户体验。

对于智能手机、智能家居等消费电子产品来说，Octopus 则有望成为它们的“标配”，让设备真正懂得用户需求，并能帮助用户完成工作，而不是仅仅语音对话。

“从长远来看，Octopus 有望成为通用人工智能的重要里程碑，让语言模型能真正行动起来，感知、理解和改造世界。”研究人员表示。

与此同时，Octopus 代表着 AI 代理技术的新方向，即“云-边-端协同”。

其中，云端大模型负责知识的学习和积累，边缘设备模型负责实任务的实时执行，再辅以个人终端设备提供人机交互。

通过三者的分工和协作，既能发挥云端算力的优势，又能兼顾隐私保护，还能提供较低的延迟、以及较低成本的交互体验。

从产业趋势看，随着 5G、物联网等新基建的推进，万物智联已成大势所趋。

AI 代理将不再局限于手机，而是遍布各种智能设备，融入生活的方方面面。

在这样的背景之下，像 Octopus 这样的轻量化、本地化的 AI 技术，有望成为每个人的“贴身秘书”。

更重要的是，使用 Octopus 的时候全程都在用户设备上完成，无需将数据上传到云端。

这能从根本上保护用户隐私，化解人们对于 AI 滥用个人信息的担忧。

“我们的目标是用 AI 来赋能每个人，而不是侵犯他们的权益。”研究人员表示。

而在开展本次研究之前，研究人员曾于 2024 年 1 月参加国际消费类电子产品展览会（CES，International Consumer Electronics Show）展会，展会的主题是 AI for all。

在展会上，他们看到各种公司都在软件和硬件上想法设法应用 AI。

其表示：“刚踏进拉斯维加斯会展中心，就被各种五光十色的展台和嘈杂的人群淹没了。”

“作为来自创业公司的与会者，我们白天在 CES 逛展，晚上还得回旅馆加班。才逛了一天，大伙儿已经有点累了，商量着是不是逛完 AI 展区和 SaaS 展区就回去。”研究人员继续表示。

幸好大家还是决定留下来多看看。其中，虚拟现实/增强现实展馆让他们大开眼界，虽然这个区域的展品所使用的 AI 技术还比较初级，但是那股把 AI 运用到各种设备和软件中的劲头感染了他们。

汽车展馆更是未来科技的缩影，无人驾驶、车载 AI 助手......处处都是 AI 的身影。

研究人员表示：“逛着逛着我们意识到，把端侧 AI 和 AI 代理结合起来，将是一个大有可为的方向。更重要的是，各行各业似乎都需要这种技术。”

回来之后，他们启动了 Octopus 项目。期间，他们设计了训练数据集，确保模型能够理解各种真实世界的函数调用意图。

然后，其使用 Google 的 Gemini 模型自动生成大量（query，函数）数据，再通过人工方式剔除不合理的结果。

这种“用大模型训小模型”的思路非常有效，只需数千条样本，就能让 Octopus 在特定领域达到甚至超越 GPT-4 的表现。

随后，他们先后尝试了多种模型架构和训练方法。其中一个关键创新是引入了“functional token”的概念。

通过将每个 API 函数映射到一个独特的 token，模型可以直接预测该调用的函数，从而无需生成函数的完整名称。这不仅提高了预测准确性，还大幅减少了计算开销。

而为了全面评估模型性能，该团队构建了大规模的真实场景数据集。他们发现仅需数千条样本，Octopus 就能在特定领域达到甚至超越 GPT-4 的表现。

研究人员还针对不同硬件平台进行了适配和调优，最终实现了在手机上的流畅运行。

其表示：“当第一次看到 Octopus 在手机上流畅运行，并且速度如此快的情况下，准确度又如此之高。我们非常的惊讶，甚至以为是实验哪里出错了。”

但是，之后的反复验证证明：此次推出的 functional token 的确可以实现如此强大的函数调用能力。

日前，相关论文已以《Octopus v2：超级代理的设备上语言模型》（Octopus v2：On-device language model for super agent）为题发在 arXiv[1]。

图 | 相关论文（来源：arXiv）

NEXA AI 创始人兼首席科学家陈伟（斯坦福博士生）、NEXA AI 联合创始人兼首席技术官李志远（斯坦福毕业生）担任论文作者。

图 | 从左到右：李志远、陈伟（来源：资料图）

目前，Octopus 模型已能适配 Android 系统，涵盖打电话、发短信、设置闹钟、拍照等数十个常用功能。

研究团队计划进一步扩展到车载系统、智能家居等更多领域。

同时，他们也在探索多模态交互，让 Octopus 不仅能听懂语音指令，还能通过图像、视频等方式感知用户需求。

从更长远来看，他们希望让 AI Agent 走进各个行业和每个端设备。而这需要进一步赋予模型以学习、推理、规划等高层次能力，这也将是他们下一步的努力方向。

参考资料：

1.https://arxiv.org/abs/2404.01744

2.https://huggingface.co/NexaAIDev/Octopus-v2

运营/排版：何晨龙

01/ 澄清170多年学术争论：北大团队获得六角冰表面原子级分辨图像，刷新对于冰表面的传统认知

02/ 科学家研发种子筛选AI模型，预测准确性超过90%，实现高效数字化的抗病品种筛选

03/ 两百多年的物理效应迎新进展：中美联合团队发现低温莱顿弗罗斯特效应，在130℃下观察到液体悬浮

04/ 科学家研发数字非福斯特电路，功率处理能力提高3个数量级，能用于远距离声通讯或无线通信

05/ 清华团队远赴云南养蚊子，借此发现新型抗病毒细菌，为蚊媒传染病防控提供有力方案

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴