Apple的研究团队创建了一款能够理解你手机屏幕上发生的事情的人工智能模型。这是日益增长的模型系列中的最新成员。
这款名为Ferret-UI的多模态大型语言模型(MLLM)可以根据其在手机屏幕上看到的内容执行各种任务。例如,Apple的新模型可以识别图标类型、找到特定的文本片段,并为用户提供完成特定任务的精确指导。
这些能力在最近发表的一篇论文中得到了记录,该论文详细介绍了这种专门的MLLM是如何被设计来理解和与移动用户界面(UI)屏幕交互的。
目前我们还不知道这是否会成为传闻中的Siri 2.0的一部分,或者只是另一个Apple AI研究项目,最终只会发表一篇论文。
Ferret-UI的工作原理
我们目前使用手机来完成各种任务——我们可能想要查找信息或进行预订。为此,我们会查看手机并点击任何能带领我们达到目标的按钮。
Apple相信,如果这个过程可以自动化,我们将更容易地与手机进行交互。它还预计,像Ferret-UI这样的模型可以帮助处理无障碍功能、测试应用程序和测试可用性等问题。
对于这样一个模型来说,为了有用,Apple必须确保它能够理解手机屏幕上发生的所有事情,同时也能够专注于特定的UI元素。总的来说,它还需要能够将用正常语言给出的指令与其在屏幕上看到的内容相匹配。
例如,Ferret-UI被展示了Apple商店中AirPods的图片,并被问到如何购买它们。Ferret-UI正确回答说,应该点击“购买”按钮。
为什么Ferret-UI很重要?
由于我们大多数人的口袋里都有智能手机,公司研究如何为这些小型设备增加AI能力是有道理的。
Meta Reality Labs的研究科学家已经预计,我们将每天花费超过一个小时的时间要么直接与聊天机器人对话,要么在后台运行LLM进程,为推荐等功能提供动力。
Meta的首席AI科学家Yann Le Cun甚至说,AI助手将在将来调解我们的整个数字饮食。
所以虽然Apple没有明确说明其对Ferret-UI的具体计划是什么,但不难想象这样一个模型如何能够被用来增强Siri,使iPhone体验变得轻松,甚至可能在今年结束之前。
热门跟贴