打开网易新闻 查看精彩图片

你每天喂给ChatGPT的网页,可能有90%的内容是垃圾。不是观点垃圾,是格式垃圾——导航栏、广告脚本、布局代码,这些你根本看不见的东西,正在吃掉你的API额度。

一个1500字的博客文章,原始HTML体积50-80KB。真正有用的文字?6-8KB。换句话说,你每发一次链接,都在为商家的广告位付费。

3个真实网页的拆解测试

3个真实网页的拆解测试

开发者Danny Postma做了组对照实验。他选了三个典型场景:一篇技术博客、一个GitHub仓库、一段YouTube字幕。结果很直观。

技术博客那页,HTML 47KB,Markdown 4.2KB。GitHub README更夸张,原始代码91KB,提取后只剩2.8KB。YouTube字幕相对干净,但也从18KB压到了1.1KB。

平均压缩率87%。这意味着什么?按GPT-4o的定价(输入token每百万2.5美元),如果你每天处理30个网页,一年能省下的钱够买两部iPhone。

Postma的原话:「你在为token付费,但80-90%的context window被导航栏、广告、脚本和布局噪音浪费了。」

打开网易新闻 查看精彩图片

为什么复制粘贴总是翻车

为什么复制粘贴总是翻车

很多人试过直接把网页内容丢给Claude或ChatGPT。结果时好时坏,有时候AI能精准总结,有时候突然开始分析页脚的版权声明。

问题出在HTML的结构性噪音。现代网页不是为阅读设计的,是为广告变现设计的。侧边栏推荐、弹窗订阅、追踪脚本——这些元素对 human 是视觉干扰,对 LLM 是语义污染。

更隐蔽的是嵌套标签。一个段落可能被拆成十几个span包裹,中间穿插着class名和style属性。AI解析时,这些噪声会扭曲注意力权重,让模型在无关细节上消耗算力。

Postma的解决方案很直接:用130多个CSS选择器做前置过滤,再针对14个平台做专用提取器。Reddit线程、arXiv论文、GitHub README——每种格式都有对应的清洗规则。

本地处理是底线,不是卖点

本地处理是底线,不是卖点

Web2MD的核心设计是「所有处理在浏览器本地完成」。这个选择在今天反而成了差异化。

打开网易新闻 查看精彩图片

市面上不少类似工具会把网页内容传到云端解析。对普通用户无所谓,但对处理敏感文档的人——律师、记者、研究员——这是红线。Postma的架构绕过了这个问题,代价是扩展包体积大了点,但隐私风险归零。

定价策略也刻意做了分层。免费版每天3次转换,够轻度用户偶尔用。Pro版9美元/月不限量,瞄准的是每天需要批量处理的研究者或内容团队。

有个细节值得玩味:模板功能。用户可以把常用问答或代码片段存成模板,下次直接调用。这其实是把「网页转Markdown」这个单点工具,往「个人知识库入口」的方向推了一步。

省下的钱,够买什么

省下的钱,够买什么

按Postma的测算,重度用户(每天30页)一年能省下的token费用约1800美元。这个数字建立在两个假设上:你原本在用API直接处理原始HTML,且你的内容来源足够杂。

但现实的账更复杂。很多人其实用的是ChatGPT Plus或Claude Pro的订阅版,不直接按token计费。对他们来说,Web2MD的价值不是省钱,是提升输出质量——更干净的输入意味着更少的幻觉和跑偏。

Postma自己也在用这套工作流。他在产品页埋了个开放问题:「你现在的网页→LLM流程是什么?」

这个问题背后有个观察:大多数人其实没有「流程」,只有「习惯」。复制,粘贴,祈祷。工具的机会往往藏在这些未被命名的 friction 里。