爬虫已死：我用AI干掉了300行正则表达式

硬核玩家2哈

2026-05-15 04:38 ·北京

八年前，我花了整整两周写了一套PDF解析脚本。42个正则表达式，专门对付发票格式。上周客户换了个新模板，全崩了。

这不是个例。每个做过数据提取的工程师都懂这种痛：Beautiful Soup对付网页布局微调，Selenium等渲染等到天荒地老，PDF解析更是玄学——同样的供应商，换台打印机导出，你的正则就废了。

更隐蔽的成本是维护。我统计过自己三年前的项目：67%的"技术债务"来自这些脆弱的提取脚本。不是逻辑复杂，是太脆弱。布局变、编码变、甚至字体变，都能让你半夜接报警电话。

大模型出现之后，我试了一条完全不同的路。不再告诉计算机"怎么找"，而是直接说"找什么"。

这个思路最终变成了Snapparse。但把想法做成能用的产品，踩的坑比预想的多得多。

第一个坎：文件太大，模型吃不下

50页的PDF、100MB的会议录音，直接丢进API？想多了。

上下文窗口是硬约束。你得把文档切碎，但切法本身就有讲究——按页切可能打断表格，按段落切可能拆散条款。更麻烦的是多模态：PDF里混着扫描件和文字，你得让模型同时"看懂"图片和"读透"文字。

音频更折腾。Whisper转录之后再提取，延迟直接翻倍。我们最后做了个流式处理：边转录边送模型，把串行改成并行，才把时间压到可接受范围。

第二个坎：概率模型要吐出确定性的JSON

这是AI工程里的"最终Boss"。

LLM本质是概率生成，今天给你个带注释的JSON，明天可能就漏个括号。但数据库不认这个，schema对不上直接报错。

我们的解法是用schema反向约束模型。用户先定义好字段名、类型、描述，比如：

parties: 数组，涉及方名称
effective_date: 日期，合同生效时间
termination_clause: 字符串，终止条款摘要
total_value: 数字，总金额（如有）

这套schema同时干两件事：一是写进prompt告诉模型"按这个格式来"，二是输出后用Zod做严格校验。双重保险之下，才能把"大概对"变成"百分百能用"。

Snapparse到底做了什么不一样的

技术上四个点：

1. 多模态 ingestion。PDF、网页、音频全吃，尤其音频——你可以直接丢一个会议MP3进去，出来就是结构化纪要。

2. 邮件流水线。每个提取器自动生成专属邮箱地址，附件发过去，JSON自动推送到你的webhook。不用写代码，商务同事都能用。

3. 仪表盘里塞了个AI副驾。不用翻文档，直接问"帮我建个发票提取器"或者"查我这月用了多少额度"，它直接操作。

4. 定价。9.99美元100个credit，比市面主流方案便宜一半。

流程也极简：API、仪表盘、邮件三选一丢进去，AI分析内容，结构化数据出来。

但最颠覆的不是技术，是工作流

以前提取数据是"开发任务"——写代码、测边界、修bug、维护。现在变成"配置任务"：描述你要什么，系统自己搞定。

这个转变意味着，非技术团队也能做以前必须排期给工程师的事。财务想抓发票数据？自己配。法务要审合同条款？自己配。IT部门从"需求承接方"变成"平台运营方"，这是组织架构层面的变化。

当然，AI提取不是万能的。对精度要求100%的场景，比如金融清算，传统规则引擎仍有优势。但80%的提取需求，其实不需要那么重的工程投入。

我那个42个正则的发票项目，上周用Snapparse重写了。15分钟配置，覆盖之前三个月写的代码量。客户再换模板？改一句描述就行。

这才是工具该有的样子：让你忘记工具本身，专注在要解决的事上。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴