打开网易新闻 查看精彩图片

之前豆包手机火起来的时候,大家发现手机系统权限高的话,结合AI能玩出很多花样,而且还可以后台执行,不打扰的状态完成任务。

如果再能保证一下隐私问题的话,感觉是苹果都想找到的AI功能了。

现阶段手机的AI能力大多取决于手机厂商自家的语音助手,结合AI能实现一些功能——你可能想过一个问题,要是有第三方软件识别屏幕后,还可以自己选择图片模型的话,岂不是可以随心实现类似的效果。

我们今天的主角就是一款叫作“肉包”的软件,没错,就是有人按照豆包手机做出来的探索软件,它给自己标榜的是:首款无需电脑的开源 AI 手机自动化助手!

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

安装之后会提示是一款AI驱动的软件,敏感权限需要手动授权操作。

打开网易新闻 查看精彩图片

它需要先用到 ShizuKu 来进行授权,需要你手动在系统里开启开发者模式,然后在电脑上激活 ShizuKu 用到的权限。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

再去给肉包进行一下授权,在设置界面看到“已连接”的提示就能使用了。

打开网易新闻 查看精彩图片

另外需要在设置里配置一下 API 服务商,他目前明确支持的有三家平台,阿里云和 OpenAI 以及 OpenRouter 的接口,当然也可以自定义。

打开网易新闻 查看精彩图片

在选择模型的时候,还可以点击获取列表,得到一个模型列表,这个列表里面包含平台的各种模型,需要手动选择支持图片理解的。

打开网易新闻 查看精彩图片

配置好之后就可以来到首页输入要求了,它内置了几个预设,像是发小红书内容的任务。

打开网易新闻 查看精彩图片

点击执行后,它会自己规划怎么做,在一旁等待就好,但也由于是靠截图来理解的,所以期间不能操作手机。

打开网易新闻 查看精彩图片

演示的动图经过了剪辑处理,实际上没有这么快,每一步都要截图分析,出错了的话会自动尝试。

实际任务的耗时是4分钟。

打开网易新闻 查看精彩图片

说实话这个速度是非常慢的了,用其他非AI的自动化工具能很快完成,但好处是它不用执行任何前置工作,意思是写自动化配置哪些时间是省下来了的,适合在备用机上捣鼓。

打开网易新闻 查看精彩图片

它有一个能力界面,可以看到它规划执行反思和记录的基本流程,可以调用剪贴板,执行HTTP请求和按下系统按键与点击滑动等操作。

软件作者用它来演示操作哔哩哔哩,推荐的用例是下面这些:

帮我点个附近好吃的汉堡
打开网易云音乐播放每日推荐
帮我把最后一张照片发送到微博
帮我在美团点一份猪脚饭
打开B站看热门视频

打开网易新闻 查看精彩图片

但是它的能力远不止这些,你可以自由探索它的上限,一般来说看你能找到多聪明的模型。同时不免有些好奇它既然能操作软件,那能不能操作一些不太需要速度反应的游戏?

对于一些游戏还真的可以!先试了一个需要手眼协调的游戏,需要从拖动下面的积木把缺口补齐,用的提示词是:

帮我玩游戏,把屏幕下面的方块拖动到上方的缺口里面,嵌合图形它就会自己消除得分。

打开网易新闻 查看精彩图片

对于人类来说,这应该是比较容易理解的任务,它会试着操作但是对不齐,这意味着它是没有“手眼协调”能力的,只能思考过后再闭上眼执行对应动作,提示词写得好可能可以完成某些游戏,但缺乏通用性。

打开网易新闻 查看精彩图片

但是对于另一部分游戏来说,像是消消乐它就可以玩,没有时间限制的话,直接说:帮我玩消消乐游戏。

它就能自己开始玩,并且是能正确执行的。

打开网易新闻 查看精彩图片

在执行日志里面可以看到过程和决策的大致内容,如果后续这个过程可以持续学习和制定模板动作的话,加上定时任务,那么用来执行某些特定游戏任务也有戏。

打开网易新闻 查看精彩图片

那让它在网页上答答题,执行一些简单动作也可以,属于是上限和玩法比较高的软件了,同时你也可以尝试不同模型之间的差异。唯一需要注意的是肉包虽然自己是开源免费的,但是接入的 API 是需要你自己付费的,截图再解析会消耗不少 token,注意消耗。

打开网易新闻 查看精彩图片

有备用机的朋友,可以整一个试试,让闲置的安卓手机变成低配版肉包手机。