前段时间我分享了Manus类的产品,用户通过访问Manus就可以得到agent的任务,从而帮助用户完成分析报告、PPT甚至是编码。

现在诞生了非常多的开源Manus类的产品,这些产品都有一个特点,就是网页端的AI agent ,他们最终操作的是他们自己服务端的应用电脑,而不是用户自己的真实电脑环境里。

我相信很多用户对于AI在桌面操作系统上的期待是,一句任务命令,自动帮忙完成自己桌面的应用任务,打开各类自己的专业软件完成系统操作,最终帮自己打工。

比如我们经常会有这样的场景,希望AI可以操作我们的电脑帮忙写PPT以及写个WORD,甚至是画个原型,现在这类工具往往都是被Native AI使用,比如AI的原型工具,以及office工具。

打开网易新闻 查看精彩图片

如上就是真实世界的AI操作系统所扮演的鼠标与键盘作用。

而这里提到的另外一种AI发展方向就是给予AI权限,来完成自己电脑工具的操作,你只需要告诉任务指令,就可以在你的本地电脑完成PPT、编码、以及设计工作,相关的文件都在你本地,不需要担心数据泄露,同时他只是会各种应用工具的操作、以及任务命令操作。

这里今天分享一个最近我们做科研找到的一个文献分享的研究算法,来自香港大学、斯坦福大学、以及卡梅隆大学、以及滑铁卢大学一起打造的系统,叫做OpenCUA 就是这样的一个系统。

1.现在Native的AI产品SaaS化

现在在各行各业,甚至是编码都有自己的专门的AI工具,比如Cursor、以及腾讯CodyBuddy,产品经理利用单独的AI工具来完成专有领域工作做产品策划,而这些Native 的AI产品,是每一个AI产品经理的独自发展方向,但实际上这种AI产品架构的方式,仍然是用SaaS的结构,基于网页端的形式或者兼容客户端的形式完成的。

通过视觉大语言模型,将机器使用智能体来完成计算机各种操作,尤其是可以跨系统,支持MAC、Windows、以及unbantu。

打开网易新闻 查看精彩图片

这个成了开源模型的智能体排名第一,获得了SOTA。

打开网易新闻 查看精彩图片

而作为AI产品经理我们来看下这个系统的设计思路与框架

打开网易新闻 查看精彩图片

这里主要分为3个,分别是agent网络工具、agent网络调用方法、以及agent数据库以及OpenCUAmodels。

由此组成了自动化电脑操作的底层核心

1.电脑任务标注系统

打开网易新闻 查看精彩图片

团队开发了一个标注系统,用于标注AI自动化处理计算机任务的任务数据流,通过一个任务,将其记录在计算机系统里需要的操作步骤,并且步骤拆分出来,乳腺癌是将自己的任务数据库在Notion导出并且上传带Ms上去的步骤,用人员进行标注记录。

通过标注员来确定自动化步骤,并且再次确认,其中通过记录操作步骤、时间、以及操作环境来将其作为一个有效的标注数据。

2.agent的数据库

通过数据标注,将其在Mac等不同平台操作系统上的应用操作都记录下来,将其作为数据标注。这个数据标注也是第一个桌面级别的任务操作数据流,并且还可以随着应用增加更加丰富,并且也制定了一个计算机任务系统的标注流出,还能够半自动化标注,从而避免了人工标注的成本过于夸张。

打开网易新闻 查看精彩图片

3.支持多个操作以及并行任务

在电脑桌面的操作,都避免不了多个任务并行,以及复杂的点击,所以这套系统现在支持复杂的操作,比如搜索桌面系统电脑软件的某个位置,比如搜索找到某个音乐播放软件的某个歌曲,这都是可以并行完成的。

打开网易新闻 查看精彩图片

如下是OpenCUA开源项目演示,这里我做了一个录屏

4.依靠大量的应用软件操作标注

当然目前这个CUA还需要持续扩展,比如要想做成产品经理专业的,就需要多训练产品经理的软件工具,比如有Axure、figma,如果是医疗行业的,就要多训练医院使用的HIS系统。

在系统中使用中目前公开了一些简单的任务操作,但是要更多复杂的任务操作需要训练与任务标注

打开网易新闻 查看精彩图片

如上是用 户操作系统部分,需要训练更多复杂的工作,做数据标注与认证才能够完成更加垂直的任 务。

以上就是今天的分享就到这里。

参考文献与源代码地址:

https://arena.xlang.ai/

https://opencua.xlang.ai/

“关注我,了解第一批空间计算的产品经理做什么”

点击加入XR空间计算开发者、产品经理交流群

AI开源项目拆解群,以及每天体验1款APP

我创建的产品设计打卡社群,加入后365天,每天体验一款APP。提升产品设计能力,同时有1300份体验报告帮助你找到竞品。

在这里你可以随时查询到你想找的各类竞品行业APP以及我收集整理的开源Github项目,马上得到APP的一手产品优化、交互设计、功能描述信息。

从优化&建议、商业模式、运营、功能描述、交互设计、产品定位至少6个维度,体验一款应用。

平均1天1块钱,扫码购买即可加入

连续体验48款应用,通过后原路退回

报名后添加星球助理

PMTalk123