之前豆包手机火起来的时候,大家发现手机系统权限高的话,结合AI能玩出很多花样,而且还可以后台执行,不打扰的状态完成任务。
如果再能保证一下隐私问题的话,感觉是苹果都想找到的AI功能了。
现阶段手机的AI能力大多取决于手机厂商自家的语音助手,结合AI能实现一些功能——你可能想过一个问题,要是有第三方软件识别屏幕后,还可以自己选择图片模型的话,岂不是可以随心实现类似的效果。
我们今天的主角就是一款叫作“肉包”的软件,没错,就是有人按照豆包手机做出来的探索软件,它给自己标榜的是:首款无需电脑的开源 AI 手机自动化助手!
安装之后会提示是一款AI驱动的软件,敏感权限需要手动授权操作。
它需要先用到 ShizuKu 来进行授权,需要你手动在系统里开启开发者模式,然后在电脑上激活 ShizuKu 用到的权限。
再去给肉包进行一下授权,在设置界面看到“已连接”的提示就能使用了。
另外需要在设置里配置一下 API 服务商,他目前明确支持的有三家平台,阿里云和 OpenAI 以及 OpenRouter 的接口,当然也可以自定义。
在选择模型的时候,还可以点击获取列表,得到一个模型列表,这个列表里面包含平台的各种模型,需要手动选择支持图片理解的。
配置好之后就可以来到首页输入要求了,它内置了几个预设,像是发小红书内容的任务。
点击执行后,它会自己规划怎么做,在一旁等待就好,但也由于是靠截图来理解的,所以期间不能操作手机。
演示的动图经过了剪辑处理,实际上没有这么快,每一步都要截图分析,出错了的话会自动尝试。
实际任务的耗时是4分钟。
说实话这个速度是非常慢的了,用其他非AI的自动化工具能很快完成,但好处是它不用执行任何前置工作,意思是写自动化配置哪些时间是省下来了的,适合在备用机上捣鼓。
它有一个能力界面,可以看到它规划执行反思和记录的基本流程,可以调用剪贴板,执行HTTP请求和按下系统按键与点击滑动等操作。
软件作者用它来演示操作哔哩哔哩,推荐的用例是下面这些:
帮我点个附近好吃的汉堡
打开网易云音乐播放每日推荐
帮我把最后一张照片发送到微博
帮我在美团点一份猪脚饭
打开B站看热门视频
但是它的能力远不止这些,你可以自由探索它的上限,一般来说看你能找到多聪明的模型。同时不免有些好奇它既然能操作软件,那能不能操作一些不太需要速度反应的游戏?
对于一些游戏还真的可以!先试了一个需要手眼协调的游戏,需要从拖动下面的积木把缺口补齐,用的提示词是:
帮我玩游戏,把屏幕下面的方块拖动到上方的缺口里面,嵌合图形它就会自己消除得分。
对于人类来说,这应该是比较容易理解的任务,它会试着操作但是对不齐,这意味着它是没有“手眼协调”能力的,只能思考过后再闭上眼执行对应动作,提示词写得好可能可以完成某些游戏,但缺乏通用性。
但是对于另一部分游戏来说,像是消消乐它就可以玩,没有时间限制的话,直接说:帮我玩消消乐游戏。
它就能自己开始玩,并且是能正确执行的。
在执行日志里面可以看到过程和决策的大致内容,如果后续这个过程可以持续学习和制定模板动作的话,加上定时任务,那么用来执行某些特定游戏任务也有戏。
那让它在网页上答答题,执行一些简单动作也可以,属于是上限和玩法比较高的软件了,同时你也可以尝试不同模型之间的差异。唯一需要注意的是肉包虽然自己是开源免费的,但是接入的 API 是需要你自己付费的,截图再解析会消耗不少 token,注意消耗。
有备用机的朋友,可以整一个试试,让闲置的安卓手机变成低配版肉包手机。
热门跟贴