「每少一个词,就少烧一点煤。」——这话如果出自环保主义者之口不奇怪,但说这话的是个给大模型写脚本的开发者。
他做了个叫 Defluffer 的工具,专门帮人把写给人工智能的提示词(prompt)砍掉废话。不是用另一个大模型来改写,而是用硬编码的规则直接压缩。理由是:用人工智能省人工智能的算力,这事本身就很蠢。
为什么"省词"等于省电
大模型对话有个反直觉的机制:每次你发新消息,它会把整段对话历史重新读一遍。所以开头省下的一个词,会在后续几十轮交互中被反复加载。
Defluffer 的作者算过一笔账:假设全球 4000 万开发者每天用 30 次人工智能,每次省 135 个词(token),一年能省 60 吉瓦时电。这个数字来自谷歌的 Gemini,作者自己标注是"fluffed numbers"——掺了水的估算。
但核心逻辑成立:词少了 → 算力需求降了 → 电费省了 → 数据中心少烧煤。
具体怎么砍
作者放了一个演示案例。原始提示词 200 多词,充满"Hello there""I would really appreciate""Due to the fact that"这类礼貌废话,以及"strictly equals to true"这种冗余技术描述。
Defluffer 的处理很粗暴:删掉问候语、把"Due to the fact that"换成"Because"、去掉"strictly""really"等副词、压缩代码注释。不改动技术意图,只剥离社交润滑层。
结果通常能压缩 40%-50% 长度。作者实测的演示文本省了 45% 的 token。
这项目认真吗?
「绝对不要用在生产环境,求你了。」这是作者的原话。
Defluffer 的代码是公开的,但定位是周末黑客项目(weekend hack)。它用正则表达式和硬规则处理文本,不理解语义,可能砍掉必要的上下文。比如"senior backend developer"这个身份设定,在某些场景下确实影响模型输出风格,Defluffer 可能误判为废话。
但作者想传递的信号是认真的:提示词工程(prompt engineering)的优化空间被严重低估。不是只有换更小的模型才叫优化,输入端减肥同样有效。
省钱的副产品
按量付费的 API 用户能直接受益。OpenAI、Anthropic 等厂商按 token 计费,输入输出都收钱。Defluffer 只砍输入端,但对话历史反复加载的机制意味着:开头省下的 token,会在整个会话周期持续产生复利。
订阅制用户(比如 ChatGPT Plus)感知不明显,但企业级 API 调用量大的场景,累积效应可观。
作者还做了个可视化计算器:拖动滑块调整"每日提示次数""平均节省 token 数",实时显示预估的年度二氧化碳减排量。把个人编码习惯和全球气候议题挂钩,这个设计比技术本身更有传播性。
45% 的压缩率意味着什么
如果行业普遍接受"提示词需要预处理"这个前提,可能出现几种演变:
一是 IDE 和代码编辑器内置类似功能,在提交请求前自动压缩;二是出现更聪明的中间层,用轻量模型做语义保留的改写,而非硬规则;三是厂商自己在服务端优化,把成本转嫁给用户前的缓冲。
Defluffer 用极端简化的方案证明:这个优化空间真实存在,且不需要等待技术突破。
60 吉瓦时的估算大概率偏高,但即使按十分之一计算,也是 6 吉瓦时——相当于几千个家庭一年的用电量。而实现它只需要改变一个习惯:发请求前,先删一遍废话。
热门跟贴