一个IP专员季度末的典型一天:打开USPTO,复制粘贴20小时,最后发现同一家公司被记成了5个名字。

专利数据库理论上全公开,但"能访问"和"能用"是两回事。2025年了,这活儿为什么还这么苦?

打开网易新闻 查看精彩图片

五座大山:专利调研的结构性痛点

第一个麻烦是数据源碎片化。USPTO PatFT/AppFT、Google Patents、Espacenet、WIPO PATENTSCOPE,再加上日本J-PlatPat、中国国知局——每家搜索语法不同,分页逻辑各异,导出格式乱七八糟。

第二个坑更隐蔽:没有标准化导出层。USPTO确实有批量数据门户,但想要结构化的单次查询导出(带权利要求文本、受让人历史、审查元数据)?得自己折腾。Google Patents干脆不给普通用户官方接口。

第三个是名称归一化噩梦。同一家公司可能叫"International Business Machines"、"IBM Corp."、"IBM Corporation"、"I.B.M.",还有拼写错误。自动去重?技术上非平凡问题。

第四个涉及语言本身。权利要求文本是密集的对抗性散文,为 survive 审查而生。把独立权利要求翻译成产品团队能懂的大白话,传统上需要 trained attorney 逐条阅读。

第五个是时间滞后。专利申请18个月后才公开。追踪"现在谁在提交什么"、监控续案申请、跟踪状态变更——这需要持续监视,不是一次性拉取能解决的。

工具层:Browzey 的解题思路

Browzey 的定位是"AI引导的浏览器自动化",专门针对这类工作流。不用写CSS选择器或脆弱的XPath查询,直接用自然语言描述需求,agent 负责导航、提取、结构化。

专利场景下,它的核心能力有三块:

跨站点导航——自动处理不同数据库的搜索语法和分页;智能提取——从非结构化页面抓权利要求、受让人、日期等字段;数据归一化——内置处理公司名称变体的逻辑。

一个典型指令长这样:

「去 patents.google.com,搜索'transformer架构',申请日2022-01-01至2024-12-31,受让人排除Google和Meta。前三页结果,提取:公开号、标题、摘要、第一独立权利要求、受让人名称、申请日、法律状态。」

注意这里的细节:时间范围过滤、排除特定公司、指定输出字段——这些在传统工作流里需要多次点击和手动复制。

为什么现在能成:技术栈的成熟

浏览器自动化不是新概念,但前几年卡在两个地方:脚本脆弱(页面一改就崩)、提取弱智(只能抓固定位置文本)。

大语言模型(LLM,大语言模型)的加入改变了游戏规则。现在的 agent 能"理解"页面结构,即使布局微调也能定位目标信息;能把非标准格式的日期、公司名称自动规范化;还能把法律术语翻译成业务语言。

具体到专利场景,这意味着:15-20小时的季度审查,可能压缩到2-3小时的指令调试+结果校验。省下的时间不是边际改善,是数量级差异。

落地建议:从最小闭环开始

别一上来就追求"全自动"。建议路径:

第一步,选一个重复性最高的子任务——比如"监控竞争对手的新公开专利",用 Browzey 跑通单轮查询→提取→邮件通知的闭环。

第二步,逐步叠加复杂度:加入跨库交叉验证、名称去重、权利要求摘要生成。

第三步,把校验环节嵌入流程。AI提取的准确率取决于页面结构稳定性,专利数据库偶尔改版,需要人工抽检机制。

最后一点:这类工具的真正价值不是"替代人",而是把人的注意力从机械操作转移到判断和策略上。专利调研的核心竞争力从来不是复制粘贴的速度,而是对技术趋势和竞争格局的解读。

如果你现在还在手动跨五个数据库查专利,本周花两小时试跑一个自动化脚本——时间ROI大概率是正的。