6月18日消息,全球电子表格自动化领域最具权威性的公开基准 SpreadsheetBench公布最新榜单,WPS AI 表格 Agent(Seed 2.0) 以73.46% 登顶Full 912(全量榜单) ,位列全球第一,不仅超越 Google、 Microsoft、 OpenAI、 Anthropic 等国际知名科技公司旗下产品,还首次超越该榜单设定的人类专家基准线。这意味着 WPS AI 处理复杂表格任务的能力,已经跨越了一个关键门槛。

SpreadsheetBench 是业界衡量表格 AI 实战能力的权威基准,它源自一篇2024年发表于 AI 顶级学术会议 NeurIPS 的研究论文。该基准包含912个来自真实 Excel 论坛的实际问题,其中42.7% 的表格含非标准结构,35.7% 含多表格,还涉及颜色、跨工作表等复杂操作。换句话说,它考的不是 AI 会不会“读表格”,而是 AI 能不能像人一样,理解任务意图、把结果做出来。论文发布时测定的 Excel 专家人类基线为71.33%,此后也被视为衡量AI表格能力的重要参照。

论文原始评测数据显示,人类专家在软限制标准下的整体表现为71.33%

此次登顶的 WPS AI(Seed 2.0),是金山办公基于自研表格 AI 基座 Qingqiu Agent 打造的业务 Agent。今年5月,Qingqiu Agent 已在SpreadsheetBenchVerified 400(专家精标榜单)以94.75% 的成绩登顶;此次 Full 912(全量榜单)再度夺冠,更是首次超越71.33%的人类专家基准线,实现了从基座能力到产品能力的完整跑通。

榜单验证的是底层能力,这份能力已经落地到真实业务中。吉林财经大学是一个典型案例,过去教师评职称,几百人提交材料,每份几十页,审核人员要逐份核对证书真伪,要提炼成果亮点,还要横向对比谁更优秀,看一份材料就要半小时起步。现在用 WPS 多维表格,AI 自动识别材料真伪,一键生成成果摘要,自动完成对比分析,审核效率提升60% 以上。制造业同样受益于这份能力,过去销售、计划、采购、生产各干各的,数据互不同步。一家数千人的工厂用 WPS 多维表格实现了3000人同时在线协作,所有数据实时同步,跨部门协作从2天缩短到2小时。而在医疗行业,呼和浩特第一人民医院过去护士排班全靠手工,纸质台账容易丢,排班耗时长,还经常出错。现在用 WPS 多维表格,AI 一键自动排班,排班结果直接显示在日历视图上,排班效率大幅提升。这些场景背后,都是登顶 SpreadsheetBench 的 WPS AI(Seed 2.0) 在支撑。(崔玉贤)