浏览器自动化这件事,终于有人跑出了新高度。微软研究院AI Frontiers实验室本周放出Fara1.5系列模型,三个版本(4B、9B、27B)专攻网页任务执行,最大的27B版本在Online-Mind2Web基准上刷出72%的任务成功率,把OpenAI Operator的58.3%甩出13个百分点。

这个数字直接改写了行业排序。同场竞技的选手里,Gemini 2.5 Computer Use是57.3%,Yutori Navigator n1是64.7%,连Fara1.5的中杯9B版都干到了63.4%,压过一票对手。基准覆盖136个热门网站的300项任务,不是实验室玩具场景。

打开网易新闻 查看精彩图片

技术路线挺务实。Fara1.5基于Qwen3.5打底,走"观察—思考—行动"循环。每一步它会翻看最近3张浏览器截图,结合历史对话,输出推理和下一步操作。配套的工具叫MagenticLite,微软专门搭的沙盒浏览器界面,模型读截图、输出鼠标键盘指令,完成填表、搜索、导航这些活儿。

训练数据构成也公开了:约200万条样本做微调,六成来自真实网页轨迹,合成环境占12.8%,表单填写与用户交互12.5%,事实锚定8.8%,视觉问答4.9%。没有神秘配方,比例写得清清楚楚。

安全设计上留了三道刹车:缺个人信息、任务描述模糊、即将执行不可逆操作时,模型会停下来问人。所有动作锁在MagenticLite沙盒里,和用户物理设备隔开。这解决了浏览器智能体最敏感的权限焦虑——你可以看着它干活,随时打断。

浏览器智能体这个赛道,之前OpenAI Operator和Claude的Computer Use各领风骚,但成功率卡在60%上下。微软这次把开源基座(Qwen3.5)+ 工程优化 + 安全沙盒打包,证明不靠闭店大模型也能打。对开发者来说,4B小模型跑本地、27B冲精度,选择余地变大了。