90%的token都在为广告买单：3个网页实测

爬虫饲养员

2026-03-30 14:48 ·北京

你每天喂给ChatGPT的网页，可能有90%的内容是垃圾。不是观点垃圾，是格式垃圾——导航栏、广告脚本、布局代码，这些你根本看不见的东西，正在吃掉你的API额度。

一个1500字的博客文章，原始HTML体积50-80KB。真正有用的文字？6-8KB。换句话说，你每发一次链接，都在为商家的广告位付费。

3个真实网页的拆解测试

3个真实网页的拆解测试

开发者Danny Postma做了组对照实验。他选了三个典型场景：一篇技术博客、一个GitHub仓库、一段YouTube字幕。结果很直观。

技术博客那页，HTML 47KB，Markdown 4.2KB。GitHub README更夸张，原始代码91KB，提取后只剩2.8KB。YouTube字幕相对干净，但也从18KB压到了1.1KB。

平均压缩率87%。这意味着什么？按GPT-4o的定价（输入token每百万2.5美元），如果你每天处理30个网页，一年能省下的钱够买两部iPhone。

Postma的原话：「你在为token付费，但80-90%的context window被导航栏、广告、脚本和布局噪音浪费了。」

为什么复制粘贴总是翻车

为什么复制粘贴总是翻车

很多人试过直接把网页内容丢给Claude或ChatGPT。结果时好时坏，有时候AI能精准总结，有时候突然开始分析页脚的版权声明。

问题出在HTML的结构性噪音。现代网页不是为阅读设计的，是为广告变现设计的。侧边栏推荐、弹窗订阅、追踪脚本——这些元素对 human 是视觉干扰，对 LLM 是语义污染。

更隐蔽的是嵌套标签。一个段落可能被拆成十几个span包裹，中间穿插着class名和style属性。AI解析时，这些噪声会扭曲注意力权重，让模型在无关细节上消耗算力。

Postma的解决方案很直接：用130多个CSS选择器做前置过滤，再针对14个平台做专用提取器。Reddit线程、arXiv论文、GitHub README——每种格式都有对应的清洗规则。

本地处理是底线，不是卖点

本地处理是底线，不是卖点

Web2MD的核心设计是「所有处理在浏览器本地完成」。这个选择在今天反而成了差异化。

市面上不少类似工具会把网页内容传到云端解析。对普通用户无所谓，但对处理敏感文档的人——律师、记者、研究员——这是红线。Postma的架构绕过了这个问题，代价是扩展包体积大了点，但隐私风险归零。

定价策略也刻意做了分层。免费版每天3次转换，够轻度用户偶尔用。Pro版9美元/月不限量，瞄准的是每天需要批量处理的研究者或内容团队。

有个细节值得玩味：模板功能。用户可以把常用问答或代码片段存成模板，下次直接调用。这其实是把「网页转Markdown」这个单点工具，往「个人知识库入口」的方向推了一步。

省下的钱，够买什么

省下的钱，够买什么

按Postma的测算，重度用户（每天30页）一年能省下的token费用约1800美元。这个数字建立在两个假设上：你原本在用API直接处理原始HTML，且你的内容来源足够杂。

但现实的账更复杂。很多人其实用的是ChatGPT Plus或Claude Pro的订阅版，不直接按token计费。对他们来说，Web2MD的价值不是省钱，是提升输出质量——更干净的输入意味着更少的幻觉和跑偏。

Postma自己也在用这套工作流。他在产品页埋了个开放问题：「你现在的网页→LLM流程是什么？」

这个问题背后有个观察：大多数人其实没有「流程」，只有「习惯」。复制，粘贴，祈祷。工具的机会往往藏在这些未被命名的 friction 里。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴