听雨 发自 凹非寺量子位 | 公众号 QbitAI

听雨 发自 凹非寺量子位 | 公众号 QbitAI

Codex自家程序员,直接把Codex「自我蒸馏」的秘籍给爆出来了…

只需要把一段提示词,直接复制粘贴进Codex。

它就会主动翻查你的历史会话,找出你一直在手动重复做的事,然后替你把这些工作流打包成可复用的工具。

打开网易新闻 查看精彩图片

这位Codex成员可以说是相当慷慨,经过网友反馈之后,他还立马迭代出了一个2.0版本。

打开网易新闻 查看精彩图片

这怎么说呢…老哥还是太全面了。

OpenAI总裁Greg Brockman也亲自赶来转发点赞了。

打开网易新闻 查看精彩图片

有意思的是,Brockman还同时转发了一条冷知识:Codex是开源的

打开网易新闻 查看精彩图片

Codex自我蒸馏,怎么做到的?

我们来细品一下Vabihav(就叫他VB吧)发布的这两版提示词。

第一版是酱婶儿的:

  • 看看我最近的会话,找出重复的工作流或重复的请求。
  • 对于我一直在手动做的事,给我建议:
  1. 如果是可复用工作流,创建一个skill;2. 如果是有边界的角色或调查任务,创建一个custom subagent。
  • 重点关注CI失败、PR审查、changelog、文档更新、发版准备、调试、测试分诊这类实际工作。
  • 只创建有用的,保持简洁。

打开网易新闻 查看精彩图片

很短,只有9行。

直接把这段提示词复制粘贴进Codex,它就会开始开始翻你的历史会话,找出那些你反复在做的动作。

然后告诉你这件事该做成skill,那件事更适合派个subagent去专门负责。

咋说呢,这提示词简洁是简洁。

但CI失败、PR审查、changelog这些名词…感觉都太专业了,好像是程序员专属提示词。

果不其然,第一版发出来之后,评论区立刻涌进了一堆反馈。

VB老哥也是没闲着,紧赶慢赶当天就更新了第二版。

直接把数据源和覆盖范围都扩大了一圈。

提示词也变长了不少,从9行变成了35行:

打开网易新闻 查看精彩图片

中文版也贴在这里:

回顾我过去30天的工作记录,找出值得打包的重复手动工作流。

按优先级使用以下数据源:最近的Codex会话和任务摘要;Codex Memories和汇总记录,找跨会话的重复模式;如果开了Chronicle,用它发现Codex以外的重复工作(仅用于发现,重要细节需回原始系统确认);已有的skill、custom agent和automation,优先复用或扩展,不要重复造轮子。

要广撒网:编码、调研、写作、规划、沟通、运营、分析、个人事务都算。

只在以下条件都满足时才动手:发生过至少两次,或明确可能再发生且重来代价高;有稳定输入、可重复流程和明确输出;能实质改善速度、质量或可靠性;现有工具还没覆盖。选最小适用形式:Skill、Custom subagent、Automation、Skip。

先输出候选清单,再创建高置信度的项目,最后告诉我创建了什么、跳过了什么、还需要更多证据的是什么。

和第一版相比呢,主要有三处升级:

数据源从「最近会话」扩展到了Memories和Chronicle,Codex能看到的东西也是多出不少。

覆盖范围从编码任务扩到写作、规划、沟通、运营,几乎包含了你全部的工作场景。

(不只是程序员哈,咱写文章的、做运营的、搞策划的都能用了)

打开网易新闻 查看精彩图片

输出也从「给建议」升级成了「直接创建」,高置信度的条目,它自己就动手了。

打包出来的结果分四种:

  • 每周重复的固定流程,做成Skill;
  • 需要专门角色去搞定的调查任务,派Subagent;
  • 定时触发、不需要人盯的检查,做成Automation;
  • 只发生过一次、边界模糊的,直接Skip,不打包。

评论区的反应也印证了这条提示词的实用性。有网友当场喊话:

「把它做成插件,叫 /dream,给我发版税。」

打开网易新闻 查看精彩图片

VB本人也在评论里承认,确实应该做成正式插件,只是dream这个名字…他不太买账哈。

不过也有网友质疑,回看30天的历史记录,这得烧多少token啊??

不得不说,token确实是大家最关心的问题…

不过VB并没有给出回应,可能作为内部人员在token方面还是很有保障的吧。

打开网易新闻 查看精彩图片

而且OpenAI最近一直在疯狂重置Codex的速率限制,感兴趣的友友们还是可以大胆一试的。

打开网易新闻 查看精彩图片

还有网友试用后发现,他自动生成的skill有一半来自「在输入还没稳定的时候就做过两次的事」。

结果维护这些抽象的成本比直接重做还高。

他的问题是:到底是让Codex自己判断要不要打包,还是人工把关?

打开网易新闻 查看精彩图片

它依赖哪些Codex新功能

可能大家也看出来了。

VB这条提示词涉及的Chronicl、Memory和Subagent,都是Codex这两个月猛猛连发的几个新功能。

最新的是Chronicle,4月20日刚上线,目前还是预览版。

打开网易新闻 查看精彩图片

它的作用是屏幕截取,如果你开了这个功能,Codex就能看到你在浏览器、Slack、邮件里做了什么。

当然,它也可以看到你所做的重复工作了。

不过,Chronicle目前只对macOS上的ChatGPT Pro订阅用户开放,而且记忆未加密存储在本地,会快速消耗rate limit,提示词注入风险也更高。

Memory功能,是4月16日随Codex大更新一起上线的,也是预览功能。

它可以记住用户偏好、修正记录和项目专属知识,并在未来会话中自动调用。

打开网易新闻 查看精彩图片

Subagent功能则更早一些,3月正式上线。

它由一个管理Agent协调多个专门编码Agent,每个Agent在独立的云端沙盒中运行。

打开网易新闻 查看精彩图片

VB,一个爱整活的OpenAI员工

最后我们来介绍一下Vaibhav Srivastav,这也是一个很有意思的人。

打开网易新闻 查看精彩图片

他是OpenAI Codex团队成员,也是前HuggingFace成员。

曾在HuggingFace担任机器学习开发者布道师,以及开发者体验与社区负责人。

他应该是目前Codex生态里最能整活的内容输出者之一。

在他的X账号里,全是他依赖Codex处理日常事务的印记。

就在昨天,他还在试图用Codex配置自己的树莓派,确保设备接入家庭WiFi后能远程访问。

打开网易新闻 查看精彩图片

而在5月22日,他宣称自己「已经超过一个月没有打开过IDE了」,光用Codex已经完全足够。

「一个App统治一切!」

打开网易新闻 查看精彩图片

真是Codex最最最忠实的粉丝了。

除了这条自我蒸馏提示词,从他的推文里,量子位还挖出了不少Codex有意思的玩法。

比如Codex的/goal 命令:给Codex定一个「完成态」,告诉它成功的样子是什么,然后让它一直跑到达成目标。

打开网易新闻 查看精彩图片

背后有一个验证器在每一步结束后判断「目标是否达成」,如果没有,主模型继续执行。

这个功能特别适合大规模重构、代码迁移、长期实验,或者那些「只要不停就能做完」的任务。

Codex 0.128.0版本起可用,通过 /goal 命令触发。

感兴趣的友友们,链接已经附在下方,快打开你的Codex试试吧~

[1]https://x.com/reach_vb/status/2058538305872949490
[2]https://x.com/reach_vb/status/2052805243268718803