OpenAI用1个功能让爬虫失业，我实测了3天

灰度测试中

2026-04-02 08:38 ·北京

上个月我要做一份竞品分析报告：30-40个行业网站的价格趋势、功能对比、市场定位。听起来不难？我花了整整两天，开了40个Chrome标签页，复制粘贴到表格里——等格式调完，数据已经过期了。

这不是我技术不行。是传统网页抓取（Web Scraping）在2026年的网页面前，像拿着纸质地图走进一座每周重画街道的城市。

为什么你的爬虫越来越没用

为什么你的爬虫越来越没用

现代网页不是为机器设计的，是为人类手指设计的。

我遇到的典型场景：页面往下滚动，内容才加载，但查看源码只剩空div；有些网站必须注册账号才能看到价格；数据藏在三层筛选器和下拉菜单后面；两个网站在我尝试自动化访问时直接弹出CAPTCHA验证码。

Beautiful Soup和Scrapy这类工具不是不能用。如果你的目标是少数静态HTML页面，它们依然高效。但如今的网站用JavaScript渲染内容，你的爬虫发请求过去，拿回一堆空标签，根本不知道实际数据三秒后通过React组件触发的API调用才加载。单页应用让URL不变而内容全变，数据躲在交互元素后面：筛选器、下拉菜单、"加载更多"按钮、无限滚动。

反爬虫系统也进化了。它们能分辨真浏览器后面坐着真人，还是Python脚本在伪装。

问题不是你的代码烂，是网页本来就不是给机器读的。

我试了5种替代方案，只有2种能跑

我试了5种替代方案，只有2种能跑

那个周末我把市面上能试的方案都跑了一遍，对手头真实的市场调研任务做实测。

第一梯队：AI搜索API（Exa、Tavily）

输入查询，返回带标题、摘要、URL的JSON。Exa维护自己的语义索引，专为大语言模型消费优化；Tavily专注研究级搜索结果。速度确实快。

但我很快撞墙。它们只能返回已被索引的内容，而我需要的数据不在Google爬过的页面上——它在登录墙后面，在动态加载的表格里，在需要点击才能展开的价格层级中。

第二梯队：浏览器自动化（Playwright、Puppeteer）

让无头浏览器像真人一样操作：点击、等待、滚动。能解决JavaScript渲染和简单交互。

代价是速度和成本。每个页面都要等完整加载，内存占用高，规模化后账单难看。更麻烦的是，现代反爬虫系统能检测无头浏览器的指纹特征——你的"真人"在它们眼里依然可疑。

第三梯队：专用抓取服务（ScrapingBee、Bright Data）

把脏活外包出去。他们管理代理池、处理CAPTCHA、轮换用户代理。

对简单场景够用。但遇到复杂交互（比如"先选地区，再选行业，再选子品类，表格才出现"），你依然在写脆弱的自定义脚本，而且按请求付费的模式让成本不可预测。

第四梯队：视觉语言模型（GPT-4V、Claude 3 Opus）

这是转折点。给模型一张网页截图，让它提取结构化数据。不需要解析HTML，不需要理解DOM结构，不需要写XPath选择器。

我测试时，一张竞争对手的定价页截图丢给Claude，它直接返回JSON格式的价格层级和功能对比，准确率约85%。剩下的15%是视觉歧义：两个套餐价格挨太近，模型分不清哪个对应哪个。

但成本是硬伤。按token计费，处理一个中等复杂度的页面，费用是传统爬虫的50-100倍。

第五梯队：Web Agent（Browser-use、Operator、Manus）

这才是我最终停下来的地方。

Web Agent不是工具，是演员。你给它一个目标——"从这三个网站提取企业级定价方案，整理成对比表"——它自己决定怎么点击、怎么滚动、怎么填表、怎么等待加载。遇到CAPTCHA？有些能调用第三方服务解决。遇到登录？它可以管理会话状态。

我测试了三个代表性方案：

Browser-use（开源）：基于Playwright，但用大语言模型做决策层。我让它抓取一个需要五层点击才能到达的产品页，它失败了两次，第三次找到路径。每次失败它都会调整策略，像人类一样试错。

OpenAI Operator（封闭测试）：体验最接近"雇了个实习生"。我描述任务，它执行，中间步骤可视化，遇到不确定处会暂停询问。处理我那40个网站的任务，耗时从两天压缩到47分钟。成本？大概12美元。比我的人力成本低两个数量级。

Manus（邀请制）：更激进的设计，支持多任务并行和长期会话。我同时丢给它三个竞品分析任务，它开了三个浏览器实例各自推进。但稳定性不如Operator，一个长表单任务中途崩溃，没有断点恢复。

Web Agent不是万能药，但边界正在消失

Web Agent不是万能药，但边界正在消失

实测完，我的判断很清晰：传统爬虫已死，但死因不是技术过时，是网页设计哲学的根本冲突。

Web Agent解决的不是"怎么抓"，而是"怎么用"。它不再试图欺骗网站"我是人类"，而是真的像人类一样使用网站。这个范式转换让反爬虫系统的大部分检测手段失效——行为模式、鼠标轨迹、页面停留时间，这些Agent都能模拟。

当前的主要限制：成本（视觉模型token消耗）、速度（比纯代码慢一个数量级）、可靠性（复杂流程仍有失败率）。但这些是工程问题，不是原理问题。

Exa的CEO Will Bryk在播客里说过一句话：「索引整个网络的成本结构正在被重新定义。以前你需要建数据中心去爬，现在你可以让一个Agent按需探索。」

我现在的实际工作流：简单静态页面用Scrapy，一次性的复杂任务用Operator，需要定期跑的监控任务用Browser-use自建。Beautiful Soup还在我的工具箱里，但使用频率从每周降到每季度。

那个花了两天做的竞品报告？上周我用Operator重跑了一遍，23分钟，成本8美元，数据新鲜度从"两天前的快照"变成"实时"。

唯一的问题是：当所有竞争对手都用上同样的工具，这份报告的价值还剩多少？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴