上个月我要做一份竞品分析报告:30-40个行业网站的价格趋势、功能对比、市场定位。听起来不难?我花了整整两天,开了40个Chrome标签页,复制粘贴到表格里——等格式调完,数据已经过期了。
这不是我技术不行。是传统网页抓取(Web Scraping)在2026年的网页面前,像拿着纸质地图走进一座每周重画街道的城市。
为什么你的爬虫越来越没用
现代网页不是为机器设计的,是为人类手指设计的。
我遇到的典型场景:页面往下滚动,内容才加载,但查看源码只剩空div;有些网站必须注册账号才能看到价格;数据藏在三层筛选器和下拉菜单后面;两个网站在我尝试自动化访问时直接弹出CAPTCHA验证码。
Beautiful Soup和Scrapy这类工具不是不能用。如果你的目标是少数静态HTML页面,它们依然高效。但如今的网站用JavaScript渲染内容,你的爬虫发请求过去,拿回一堆空标签,根本不知道实际数据三秒后通过React组件触发的API调用才加载。单页应用让URL不变而内容全变,数据躲在交互元素后面:筛选器、下拉菜单、"加载更多"按钮、无限滚动。
反爬虫系统也进化了。它们能分辨真浏览器后面坐着真人,还是Python脚本在伪装。
问题不是你的代码烂,是网页本来就不是给机器读的。
我试了5种替代方案,只有2种能跑
那个周末我把市面上能试的方案都跑了一遍,对手头真实的市场调研任务做实测。
第一梯队:AI搜索API(Exa、Tavily)
输入查询,返回带标题、摘要、URL的JSON。Exa维护自己的语义索引,专为大语言模型消费优化;Tavily专注研究级搜索结果。速度确实快。
但我很快撞墙。它们只能返回已被索引的内容,而我需要的数据不在Google爬过的页面上——它在登录墙后面,在动态加载的表格里,在需要点击才能展开的价格层级中。
第二梯队:浏览器自动化(Playwright、Puppeteer)
让无头浏览器像真人一样操作:点击、等待、滚动。能解决JavaScript渲染和简单交互。
代价是速度和成本。每个页面都要等完整加载,内存占用高,规模化后账单难看。更麻烦的是,现代反爬虫系统能检测无头浏览器的指纹特征——你的"真人"在它们眼里依然可疑。
第三梯队:专用抓取服务(ScrapingBee、Bright Data)
把脏活外包出去。他们管理代理池、处理CAPTCHA、轮换用户代理。
对简单场景够用。但遇到复杂交互(比如"先选地区,再选行业,再选子品类,表格才出现"),你依然在写脆弱的自定义脚本,而且按请求付费的模式让成本不可预测。
第四梯队:视觉语言模型(GPT-4V、Claude 3 Opus)
这是转折点。给模型一张网页截图,让它提取结构化数据。不需要解析HTML,不需要理解DOM结构,不需要写XPath选择器。
我测试时,一张竞争对手的定价页截图丢给Claude,它直接返回JSON格式的价格层级和功能对比,准确率约85%。剩下的15%是视觉歧义:两个套餐价格挨太近,模型分不清哪个对应哪个。
但成本是硬伤。按token计费,处理一个中等复杂度的页面,费用是传统爬虫的50-100倍。
第五梯队:Web Agent(Browser-use、Operator、Manus)
这才是我最终停下来的地方。
Web Agent不是工具,是演员。你给它一个目标——"从这三个网站提取企业级定价方案,整理成对比表"——它自己决定怎么点击、怎么滚动、怎么填表、怎么等待加载。遇到CAPTCHA?有些能调用第三方服务解决。遇到登录?它可以管理会话状态。
我测试了三个代表性方案:
Browser-use(开源):基于Playwright,但用大语言模型做决策层。我让它抓取一个需要五层点击才能到达的产品页,它失败了两次,第三次找到路径。每次失败它都会调整策略,像人类一样试错。
OpenAI Operator(封闭测试):体验最接近"雇了个实习生"。我描述任务,它执行,中间步骤可视化,遇到不确定处会暂停询问。处理我那40个网站的任务,耗时从两天压缩到47分钟。成本?大概12美元。比我的人力成本低两个数量级。
Manus(邀请制):更激进的设计,支持多任务并行和长期会话。我同时丢给它三个竞品分析任务,它开了三个浏览器实例各自推进。但稳定性不如Operator,一个长表单任务中途崩溃,没有断点恢复。
Web Agent不是万能药,但边界正在消失
实测完,我的判断很清晰:传统爬虫已死,但死因不是技术过时,是网页设计哲学的根本冲突。
Web Agent解决的不是"怎么抓",而是"怎么用"。它不再试图欺骗网站"我是人类",而是真的像人类一样使用网站。这个范式转换让反爬虫系统的大部分检测手段失效——行为模式、鼠标轨迹、页面停留时间,这些Agent都能模拟。
当前的主要限制:成本(视觉模型token消耗)、速度(比纯代码慢一个数量级)、可靠性(复杂流程仍有失败率)。但这些是工程问题,不是原理问题。
Exa的CEO Will Bryk在播客里说过一句话:「索引整个网络的成本结构正在被重新定义。以前你需要建数据中心去爬,现在你可以让一个Agent按需探索。」
我现在的实际工作流:简单静态页面用Scrapy,一次性的复杂任务用Operator,需要定期跑的监控任务用Browser-use自建。Beautiful Soup还在我的工具箱里,但使用频率从每周降到每季度。
那个花了两天做的竞品报告?上周我用Operator重跑了一遍,23分钟,成本8美元,数据新鲜度从"两天前的快照"变成"实时"。
唯一的问题是:当所有竞争对手都用上同样的工具,这份报告的价值还剩多少?
热门跟贴