微软浏览器智能体拿下72%成功率，OpenAI被超13个百分点

赛博兰博

2026-05-24 03:41 ·北京

浏览器自动化这件事，终于有人跑出了新高度。微软研究院AI Frontiers实验室本周放出Fara1.5系列模型，三个版本（4B、9B、27B）专攻网页任务执行，最大的27B版本在Online-Mind2Web基准上刷出72%的任务成功率，把OpenAI Operator的58.3%甩出13个百分点。

这个数字直接改写了行业排序。同场竞技的选手里，Gemini 2.5 Computer Use是57.3%，Yutori Navigator n1是64.7%，连Fara1.5的中杯9B版都干到了63.4%，压过一票对手。基准覆盖136个热门网站的300项任务，不是实验室玩具场景。

技术路线挺务实。Fara1.5基于Qwen3.5打底，走"观察—思考—行动"循环。每一步它会翻看最近3张浏览器截图，结合历史对话，输出推理和下一步操作。配套的工具叫MagenticLite，微软专门搭的沙盒浏览器界面，模型读截图、输出鼠标键盘指令，完成填表、搜索、导航这些活儿。

训练数据构成也公开了：约200万条样本做微调，六成来自真实网页轨迹，合成环境占12.8%，表单填写与用户交互12.5%，事实锚定8.8%，视觉问答4.9%。没有神秘配方，比例写得清清楚楚。

安全设计上留了三道刹车：缺个人信息、任务描述模糊、即将执行不可逆操作时，模型会停下来问人。所有动作锁在MagenticLite沙盒里，和用户物理设备隔开。这解决了浏览器智能体最敏感的权限焦虑——你可以看着它干活，随时打断。

浏览器智能体这个赛道，之前OpenAI Operator和Claude的Computer Use各领风骚，但成功率卡在60%上下。微软这次把开源基座（Qwen3.5）+ 工程优化 + 安全沙盒打包，证明不靠闭店大模型也能打。对开发者来说，4B小模型跑本地、27B冲精度，选择余地变大了。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴