专利调研苦手救星：AI浏览器自动化实战

薛定谔的BUG

2026-05-01 18:35 ·北京

一个IP专员季度末的典型一天：打开USPTO，复制粘贴20小时，最后发现同一家公司被记成了5个名字。

专利数据库理论上全公开，但"能访问"和"能用"是两回事。2025年了，这活儿为什么还这么苦？

五座大山：专利调研的结构性痛点

第一个麻烦是数据源碎片化。USPTO PatFT/AppFT、Google Patents、Espacenet、WIPO PATENTSCOPE，再加上日本J-PlatPat、中国国知局——每家搜索语法不同，分页逻辑各异，导出格式乱七八糟。

第二个坑更隐蔽：没有标准化导出层。USPTO确实有批量数据门户，但想要结构化的单次查询导出（带权利要求文本、受让人历史、审查元数据）？得自己折腾。Google Patents干脆不给普通用户官方接口。

第三个是名称归一化噩梦。同一家公司可能叫"International Business Machines"、"IBM Corp."、"IBM Corporation"、"I.B.M."，还有拼写错误。自动去重？技术上非平凡问题。

第四个涉及语言本身。权利要求文本是密集的对抗性散文，为 survive 审查而生。把独立权利要求翻译成产品团队能懂的大白话，传统上需要 trained attorney 逐条阅读。

第五个是时间滞后。专利申请18个月后才公开。追踪"现在谁在提交什么"、监控续案申请、跟踪状态变更——这需要持续监视，不是一次性拉取能解决的。

工具层：Browzey 的解题思路

Browzey 的定位是"AI引导的浏览器自动化"，专门针对这类工作流。不用写CSS选择器或脆弱的XPath查询，直接用自然语言描述需求，agent 负责导航、提取、结构化。

专利场景下，它的核心能力有三块：

跨站点导航——自动处理不同数据库的搜索语法和分页；智能提取——从非结构化页面抓权利要求、受让人、日期等字段；数据归一化——内置处理公司名称变体的逻辑。

一个典型指令长这样：

「去 patents.google.com，搜索'transformer架构'，申请日2022-01-01至2024-12-31，受让人排除Google和Meta。前三页结果，提取：公开号、标题、摘要、第一独立权利要求、受让人名称、申请日、法律状态。」

注意这里的细节：时间范围过滤、排除特定公司、指定输出字段——这些在传统工作流里需要多次点击和手动复制。

为什么现在能成：技术栈的成熟

浏览器自动化不是新概念，但前几年卡在两个地方：脚本脆弱（页面一改就崩）、提取弱智（只能抓固定位置文本）。

大语言模型（LLM，大语言模型）的加入改变了游戏规则。现在的 agent 能"理解"页面结构，即使布局微调也能定位目标信息；能把非标准格式的日期、公司名称自动规范化；还能把法律术语翻译成业务语言。

具体到专利场景，这意味着：15-20小时的季度审查，可能压缩到2-3小时的指令调试+结果校验。省下的时间不是边际改善，是数量级差异。

落地建议：从最小闭环开始

别一上来就追求"全自动"。建议路径：

第一步，选一个重复性最高的子任务——比如"监控竞争对手的新公开专利"，用 Browzey 跑通单轮查询→提取→邮件通知的闭环。

第二步，逐步叠加复杂度：加入跨库交叉验证、名称去重、权利要求摘要生成。

第三步，把校验环节嵌入流程。AI提取的准确率取决于页面结构稳定性，专利数据库偶尔改版，需要人工抽检机制。

最后一点：这类工具的真正价值不是"替代人"，而是把人的注意力从机械操作转移到判断和策略上。专利调研的核心竞争力从来不是复制粘贴的速度，而是对技术趋势和竞争格局的解读。

如果你现在还在手动跨五个数据库查专利，本周花两小时试跑一个自动化脚本——时间ROI大概率是正的。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴