OpenAI API及开发者平台工程负责人Sherwin Wu透露,公司内部95%的工程师已使用Codex编程,且未来12至24个月内,AI模型有望连贯执行长达数小时的复杂任务。
近日,OpenAI API及开发者平台工程负责人Sherwin Wu(舍温·吴)在参与Lenny's Podcast访谈时,详细披露了OpenAI内部的AI使用率数据,并对AI如何重塑软件工程、未来模型的演进路径以及SaaS行业的市场机遇进行了深度解析。
内部实测:95%渗透率与“被吞噬”的中间层
市场高度关注AI在实际生产环境中的落地情况。Sherwin Wu披露了OpenAI内部的一组核心数据:目前,OpenAI 95%的工程师日常都在使用Codex(OpenAI的编程模型),且100%的PR也每天由Codex审查。Sherwin Wu表示:
“对于像我这样的管理者来说,现在使用这些AI工具比自己手动编码要容易得多。我们所有的代码现在都是由Codex编写的。”
数据还显示,深度使用AI工具的工程师产出显著高于普通用户。
“倾向于更多使用Codex的工程师开启的PR数量比不常使用的工程师多出了70%,而且这个差距还在随着时间的推移而扩大。”
值得注意的是,OpenAI内部正在进行一项激进实验:一个团队正在维护一个100%由Codex编写的代码库,这将导致开发模式的根本性转变。
针对目前市场上大量围绕AI构建的工具链(如向量数据库、智能体框架等),Sherwin Wu提出了“苦涩的教训”:
“模型会毫不费力地吞噬掉你的脚手架(scaffolding)。”
他指出,随着模型能力的提升,许多为弥补模型缺陷而建立的中间层将变得多余,开发者应“为模型将要发展的方向而构建,而不是为它们今天的样子而构建”。
职业重塑:工程师正变成施展咒语的“巫师”
关于AI对就业结构的影响,访谈中提出了一个形象的比喻。Sherwin Wu认为,独立贡献者(IC)角色的工程师正在转变为“技术负责人”或管理者。
“工程师正在成为技术负责人。他们正在管理成群的智能体(agents)。这真的感觉就像我们是巫师,在施展各种咒语,而这些咒语就像是出去为你做事。”
他描述了未来的工作场景:工程师不再逐行写代码,而是同时管理10到20个并行的AI线程,引导它们完成任务。这种变化使得高绩效人才的杠杆率被极度放大,也就是所谓的“马太效应”——AI让优秀的人变得卓越。
未来指引:B2B SaaS的黄金时代与“长任务”模型
针对市场热议的“一人十亿美元创业公司”(One-person billion-dollar startup)概念,Sherwin Wu给出了独特的“二阶效应”推演。他认为,为了赋能这样的超级个体,市场将需要大量定制化的软件工具。
“我认为我们可能实际上正在进入B2B SaaS的黄金时代。”
Sherwin Wu分析称,虽然可能会出现单人十亿美元公司,但更确定的机会在于会出现成百上千个为这些超级个体服务的“千万美元级”小微SaaS公司。这将改变风险投资的生态系统,创业门槛将大幅降低。
在技术演进的时间表上,Sherwin Wu给出了明确的预测:
1、长任务处理能力: 目前前沿模型能处理不到一小时的任务。
“在未来12到24个月,我们可以看到能够非常连贯地执行多个小时任务的模型。在某个时候,它可能能达到六小时一天的长任务。”
2、多模态爆发:音频和语音将在未来6到12个月内变得更重要,尤其在企业业务流程自动化领域被严重低估。
OpenAI强调其平台定位,Sherwin Wu明确表示,OpenAI视自己为生态系统平台,致力于“提高水位”,而非通过发布竞品来扼杀初创公司。
Sherwin Wu接受采访全文翻译:
舍温·吴(Sherwin Wu)
95% 的工程师使用 Codex,我们 100% 的 PR 都由 Codex 审查。
伦尼(Lenny)
对于工程师来说,我不知道在过去几年里,还有什么职业的变化比这更大。
舍温·吴(Sherwin Wu)
工程师正在成为技术负责人。他们正在管理成群的智能体(agents)。这真的感觉就像我们是巫师,在施展各种咒语,而这些咒语就像是出去为你做事。
伦尼(Lenny)
你认为人们还没有充分预料到的是什么,是……
舍温·吴(Sherwin Wu)
单人十亿美元创业公司的第二或第三阶效应,是为了赋能单人十亿美元创业公司而出现的效应。可能还会有 100 个其他小公司在构建定制软件。所以我认为我们可能实际上正在进入 B2B SaaS 的黄金时代。
伦尼(Lenny)
我越来越多地听到,当人们的智能体(agents)不工作时,他们会感到压力。
舍温·吴(Sherwin Wu)
实际上,现在有一个团队正在 OpenAI 内部做一个实验,他们正在维护一个 100% 由 Codex 编写的代码库。他们遇到了你描述的那些确切问题。通常情况下,你会想,"好吧,我要卷起袖子,自己搞定它。"但这个团队没有那个"逃生舱"。
伦尼(Lenny)
你分享过,在 AI 领域,倾听客户的意见并不总是正确的策略。
舍温·吴(Sherwin Wu)
这个领域和模型本身变化太快了,它们往往会自我颠覆。模型会毫不费力地吞噬掉你的脚手架(scaffolding)。
伦尼(Lenny)
对于那些觉得"好吧,我不想错过这班船"的人,你有什么建议?
舍温·吴(Sherwin Wu)
确保你是在为模型将要发展的方向而构建,而不是为它们今天的样子而构建。但我们这里负责科学的副总裁凯文·韦尔(Kevin Weil)说过一句话,他喜欢说:"这是模型有史以来最差的时候。"
伦尼(Lenny)
今天的嘉宾是舍温·吴(Sherwin Wu),他是 OpenAI API 和开发者平台工程负责人。考虑到基本上每个 AI 初创公司都在集成 OpenAI 的 API,舍温对于正在发生的事情以及未来的发展方向有着极其独特和广阔的视野。在我们精彩赞助商的简短致辞之后,我们马上进入正题。
伦尼(Lenny)
舍温,非常感谢你来到这里,欢迎来到播客。
舍温·吴(Sherwin Wu)
谢谢你的邀请。
伦尼(Lenny)
我想从感觉像是 AI 进展的晴雨表开始,特别是在工程领域。就目前而言,你自己(如果你还在写代码的话)和你的团队的代码,有多大比例是由 AI 编写的?
舍温·吴(Sherwin Wu)
我现在偶尔还是会写代码。实际上,我想说的是,对于像我这样的管理者来说,现在使用这些 AI 工具比自己手动编码要容易得多。所以我知道,对我自己以及 OpenAI 的其他一些工程经理来说,我们所有的代码现在都是由 Codex 编写的。但更广泛地说,公司内部充满了能量,一种实实在在的能量,大家都在谈论这些工具已经变得多么强大,Codex 对我们来说变得多么好用。我们很难精确衡量有多少代码是由 AI 编写的,因为绝大部分代码,我想说接近 100%,通常首先是由 AI 生成的。不过,我们确实跟踪的是,目前绝大多数工程师每天都在使用 Codex。所以,95% 的工程师使用 Codex,我们 100% 的 PR 也每天由 Codex 审查。基本上,任何进入生产环境、被合并的代码,Codex 都会过目,并在 PR 中提出改进建议、提出更改。这是我们内部看到的情况。但总的来说,最令人兴奋的还是那种能量,那种……存在的能量。
舍温·吴(Sherwin Wu)
我们观察到的另一件事是,倾向于更多使用 Codex 的工程师会开启更多的 PR。他们实际上比不常使用 Codex 的工程师多开了 70% 的 PR,而且这个差距还在扩大。所以我觉得,那些开启更多 PR 的人开始越来越多地学习如何使用这个工具,变得更高效。那 70% 的差距还在随着时间的推移而增长。自从我上次看这个数字以来,它可能实际上又增加了。
伦尼(Lenny)
好,只是为了确保我们听清楚了你的意思,OpenAI 那 95% 的工程师的所有代码都是由 AI 编写的?代码写出来,然后他们再审查?
舍温·吴(Sherwin Wu)
是的,是的。
伦尼(Lenny)
这太疯狂了。几乎到了我们不再觉得疯狂,已经开始习惯的程度了。
舍温·吴(Sherwin Wu)
我认为还是有些需要习惯的地方,明确一下。也有些工程师,我想他们对 Codex 的信任度稍微低一点。但基本上每天我都会和某个人交谈,他们对 Codex 能做的事情感到惊叹,他们对模型的信任度,或者说,他们有多大程度上信任模型能独立完成工作的程度,会一次又一次地提高。我们这里负责科学的副总裁凯文·韦尔有句话,他喜欢说:"这是模型有史以来最差的时候。"对于软件工程来说,这也是模型有史以来最差的时候。所以随着时间的推移,我们看到人们越来越信任它。然后我们也会看到模型本身变得越来越好。
伦尼(Lenny)
是的,凯文·韦尔,以前也是播客嘉宾,他在这档播客里也说过这句话,说过几次。是的,是的。Claude Bot / Mulbot / OpenClaw 的开发者最近分享说,他在工作中使用 Codex,他觉得只要 Codex 做了某事,他就相信它做了正确的工作,他几乎可以肯定可以直接提交到主分支,而且结果会很好。
舍温·吴(Sherwin Wu)
他是 Codex 的重度用户。我知道他和团队保持密切联系,给了我们很好的反馈。他那样使用它,我并不惊讶。我是说,它叫 OpenClaw。是的,OpenClaw。很棒的产品。然后我看到更多,我是说,这是最近的事,就今天早上,我想最令人印象深刻的是看到所有那些 AI 智能体在互相交谈。相当超现实。
伦尼(Lenny)
这基本上就是《星际迷航》中的博格人在现实生活中发生了。所以回到我们正在经历的这一个疯狂时刻,特别是对工程师而言。我们经历了一个转变,从你写每一行代码,到现在 AI 在写你所有的代码。我不知道在过去几年里,还有什么职业的变化比这更大,一个我们没想到会变化这么大的职业。工程师的工作在其整个职业生涯中变得如此不同。在过去的几年里,现在它已经转变为"我不再写代码了"。我甚至想象一下未来几年工程师的角色和软件工程师的工作,那会是怎样的?
舍温·吴(Sherwin Wu)
我是说,看到这个真的很酷,这也是兴奋感的一部分,因为这份工作很可能在未来一两年内发生相当显著的变化。不过感觉我们还在摸索之中。所以有一种兴奋感,我知道特别是一些软件工程师会觉得,我们处在一个罕见的时刻,也许在未来 12 到 24 个月里,我们可以自己摸索出这些东西,为我们自己设定标准,关于我预见到它会如何发展。所以,我觉得大家都在说一件事,那就是,人们普遍认为,独立贡献者工程师正在成为技术负责人。他们基本上成了管理者,在管理成群的智能体。我知道我团队里的很多工程师基本上同时有 10 到 20 个线程在进行。显然不是同时在运行活跃的 Codex 任务,而是有很多并行的线程。他们在检查这些线程在做什么,在引导智能体和 Codex,并给予反馈。所以他们的工作真的从仅仅是编写代码本身,变成了几乎像一个管理者。我认为在未来一两年内,情况还会如此。
舍温·吴(Sherwin Wu)
我经常回想起的一个比喻,实际上来自我大学时读过的一本编程教科书,叫做《计算机程序的构造和解释》(SICP,Structure and Interpretation of Computer Programs)。你可能听说过它。在麻省理工学院,它非常有名,实际上作为入门编程课程的教材使用了很长时间。它有一群狂热的追随者。它教你编程,教你一种叫做 Scheme 的 Lisp 方言。它向你介绍了函数式编程之类的东西,非常有启发性。但那本书对我来说最难忘的是……我是在大学里读的。它一开头就把编程描述为一门学科,并画了一个比喻,基本上就像巫术。它说软件工程师就像巫师,编程语言就像咒语,你……你在念诵咒语,这些咒语就像是出去为你做事。挑战在于,你需要念诵什么样的咒语才能让程序做你想做的事?这本书写于 1980 年,所以这是很久以前的事了。
舍温·吴(Sherwin Wu)
我认为这个比喻实际上在某种程度上一直存在。而且我认为,当我们进入这个"氛围编码"(vibe coding)的新时代,或者软件工程未来会变成什么样的时候,这个比喻实际上正在上演。因为编程语言基本上就是我们在使用的咒语。它们随着时间的推移而改变。挑战始终是,而且趋势一直是,通过编程让计算机做你想做的事变得越来越容易。我认为当前的 AI 浪潮很可能是这个演变的下一个阶段。它现在真的是字面意义上的咒语了,因为你可以告诉 Codex,告诉 Cursor 你到底想做什么,然后它就会全部替你去完成。我特别喜欢巫师和巫术的类比。因为我认为我们现在的状态开始向《幻想曲》里的"魔法师的学徒"靠拢。米老鼠戴上魔法师的帽子,试图做所有事情。我认为这是一个非常贴切的类比,因为第一,它确实非常强大。现在你能施展的咒语,杠杆作用极高,但你必须知道你在做什么,对吧?就像在"魔法师的学徒"里,整个情节就是米老鼠失控了,扫帚发疯了,到处都是水。他基本上是让扫帚去执行一个任务,然后自己睡着了。所以你知道,这就是"氛围编码"的极致体现。最后老魔法师回来,把一切都清理干净。当我看到工程师们一次处理 20 个不同的 Codex 线程时,这确实需要一些技巧,需要一定的资历,需要投入很多思考,因为你要确保模型不会偏离轨道。你肯定不想就这样完全走开,忽略这件事。但它的杠杆作用也极高。一个非常资深的工程师,如果非常擅长、非常熟练地使用这些工具,现在可以通过他们正在做的事情完成多得多的任务。我认为这也是它变得有趣的原因。它真的让我们感觉现在就像巫师一样。我们感觉更接近拥有这种神奇的体验,我们施展所有这些咒语,让软件为你做所有事情。
伦尼(Lenny)
当你描述的时候,我正好想到了"魔法师的学徒"这个比喻。所以很高兴你提到了它。之前有位播客嘉宾把它描述为你拥有一个可以满足你愿望的精灵,这是个有用的框架,因为你必须非常清楚你想要的愿望是什么。
舍温·吴(Sherwin Wu)
如果你想变大,要多大,是的。或者可能是那种"猴爪"式的,你知道,你得到了你想要的,但随之而来的正确效果是什么?是的,我认为这个比喻很棒。对我来说,疯狂的是那本书《计算机程序的构造和解释》的持久力。它被称为"巫师书",人们称它为巫师书,就是因为他们贯穿全书编织的那个比喻,而我们基本上现在已经达到了那个点,这真的很酷。
伦尼(Lenny)
我想顺着两个方向聊。一个是,我越来越多地听到,当人们的智能体不工作时,他们会感到一种压力。你发出了所有这些 Codex 智能体,然后你必须时刻关注它们。哦,有一个不工作了,我在浪费时间。你在你的团队里感受到这种压力吗?
舍温·吴(Sherwin Wu)
我是说,这经常发生。我实际上认为,这正是当前所有这一切中有趣的部分所在,因为这些模型并不完美,这些工具也不完美,我们仍在试图弄清楚如何最好地与 Codex 或这些 AI 智能体互动来完成工作。我们内部经常遇到这种情况,有一个特别有意思的团队。实际上,现在有一个团队正在 OpenAI 内部做一个实验,他们基本上在维护一个 100% 由 Codex 编写的代码库。所以,你知道,有些时候你会让 AI 写代码,但你显然最终会重写很多代码,你可能需要仔细检查和修改。但这个团队完全由 Codex 操刀,完全投入其中。他们遇到了你描述的那些确切问题,比如,他们的挑战是,你知道,我想完成这个功能,但我无法让智能体做到。通常情况下,会有一个"逃生舱",那时你会想,"好吧,我要卷起袖子,自己搞定它。"然后我不再用 Codex,而是可能使用 Cursor 里的 Tab 补全之类的功能。但对于这个实验团队来说,他们没有那个"逃生舱"。所以挑战就变成了:我如何让智能体做到这一点?我实际上认为我们很快会发布一篇博文,分享我们的一些经验。许多迷人的范例和最佳实践正在涌现出来。
舍温·吴(Sherwin Wu)
我们注意到一件有趣的事,我不知道这是不是你感受到的,但我们在这里确实感受到了,很多时候,当编码智能体没有做你想让它做的事情时,问题通常出在上下文和你提供给它的信息上。要么是规定得不够明确,要么就是没有足够的信息让智能体、让 Codex 了解如何去做某事。所以当你必须通过这种方式解决它时,挑战就在于添加文档,实际上就是围绕这个限制开展工作,基本上把更多你脑子里知道的、那种不成文的、部落式的知识,以某种方式编码到代码库里,要么通过代码注释本身,要么通过代码结构本身,要么通过像 .md 文件、skills 文件这样的文本文件,或者任何其他类型的、仓库内部的额外资源,这样模型就能更好地完成任务。这个团队还有很多其他的经验,我认为探索起来会很迷人。但是,是的,去掉不再使用 AI 这个"逃生舱",让他们能够开始拼凑出许多问题,如果我们真的想深入智能体领域,这些问题是我们必须解决的。
伦尼(Lenny)
人们遇到的另一个问题,你谈到了人们如何疯狂地提交 PR。如果他们用 AI 工作,会提交多得多的 PR。显然,代码审查正成为一个更大的挑战。你的团队有没有想出什么办法来帮助加快审查速度,让它能够规模化,而不只是给人们创造一个糟糕的工作——他们整天就坐在那里审查 PR?
舍温·吴(Sherwin Wu)
是的,我的意思是,现在 Codex 会审查我们 100% 的 PR。所以我认为,一件非常有趣的事情是,我们倾向于立刻交给模型做的事情,往往是那些让我们烦恼的事情,或者是软件工程中最无聊的部分。这也是为什么现在更有趣了,因为我们可以做更多有趣的事情。就我自己而言,我真的很讨厌代码审查。对我来说这是最糟糕的事情之一。我记得我大学毕业后的第一份工作在 Quora,我负责新闻推送。所以我拥有新闻推送的代码,因此我是新闻推送的审查者。它是每个人都会触及的核心代码。所以每天早上我登录后,会有 20 到 30 个代码审查等着我,我心里想,"哦,天哪,我得把这些都看完。"我会拖延,然后它就长到 50 个。所以有很多代码审查。
舍温·吴(Sherwin Wu)
Codex 非常擅长审查代码。所以我们注意到的一件事是,o1 在审查代码方面变得异常熟练,特别是当你把它引导到正确的方向时。所以对于代码审查,是的,我们创建了很多 PR,但 Codex 审查了所有 PR。它让代码审查从一个可能需要 10 到 15 分钟的任务,有时甚至只需要 2 到 3 分钟,因为已经有了很多内置的建议。很多时候,特别是对于小的 PR,你甚至不需要人来审查。我们用这种方式交叉使用 Codex,原始作者会看看 Codex 的建议。代码审查的好处是拥有第二双眼睛来确保你没有做任何蠢事。Codex 现在是一双相当聪明的第二双眼睛。所以这是我们在整个 CI 流程中大力投入的方向,比如推送后和部署后的流程,现在内部也通过 Codex 实现了高度自动化。如果你和很多工程师交谈,最让他们烦恼的事情是,在你写完漂亮的代码之后,如何把它投入生产?你需要运行所有这些测试,你需要处理错误,是的,还有所有的代码审查。你可以用 Codex 做很多自动化的事情。所以我们内部实际上构建了一些工具来帮助自动化这个过程,自动化 lint 检查。如果有一个 lint 错误,用 Codex 修复非常容易,然后它可以就直接打补丁,然后重新启动 CI 流程。所以我们正努力把所有这些都压缩到,尽可能少地占用工程师的工作,其结果是,他们现在可以合并并推送更多的 PR。
伦尼(Lenny)
Codex 写代码,Codex 审查它自己写的代码。我很好奇,你是否愿意使用其他模型来审查你们自己模型的工作?这是一个路径吗?还是说,它已经足够好了,我们不需要别的了?
舍温·吴(Sherwin Wu)
我想说的是,这里面肯定存在一个循环问题。回到"魔法师的学徒",你要确保不让扫帚疯跑。所以,我们对于哪些 PR 是完全由 Codex 审查的,考虑得非常周到。大多数人显然还是会看一眼他们自己的 PR,所以并不是降到零了。更像是从 100% 的关注度降到了 30% 的关注度,这有助于推动事情进展。至于使用多个模型,我们显然在内部测试了很多模型。所以我们有很多。我们较少使用外部模型。我们认为"吃自己的狗粮",使用我们自己的模型,并从那里获得反馈,这很重要。但你也可以使用很多内部模型变体来给你提供不同的视角。我们发现这样做效果很好。
伦尼(Lenny)
好的,只是为了确保我们了解今天 OpenAI 世界在 AI 编码方面的一个晴雨表,以便我理解。然后我想转到不同的话题。目前 OpenAI 内部 100% 的代码都是由 Codex 编写的?是这么说的吗?
舍温·吴(Sherwin Wu)
我不会说今天运行在生产环境中的 100% 代码都是由 AI 编写的。这很难做归因。但几乎每个工程师现在都在他们所有的任务中大量使用 Codex。所以,如果让我猜的话,我会说绝大部分代码现在可能都是由 AI 创作的。
伦尼(Lenny)
难以置信。好的,有很多讨论,我们一直在谈论独立贡献者(IC)的角色,独立贡献者工程师的工作。我们来谈谈管理者角色的变化,特别是工程经理。作为管理者,你的生活随着 AI 的兴起发生了怎样的变化?你认为管理者未来的角色是什么?
舍温·吴(Sherwin Wu)
变化肯定比工程师小。还没有专门给管理者的 Codex,是的,还没有。但是,我用 Codex 来帮我做一些更像是管理性质的任务。我想说有几件事已经变了。有一些趋势。所以我认为它变化还不大,但我看到了趋势。如果你推演下去,你可以大致看到这将会走向何方。一件事变得越来越清晰,Codex 确实赋予了顶尖表现者极大的能力,让他们能做更多,效率更高。所以它确实,我认为这对于整个社会的 AI 来说可能也是真的,那就是那些真正投入其中的人,那些有高度能动性的人,会真正擅长使用这些工具,他们会自我增压。所以我现在也注意到了这一点,那就是顶尖表现者最终会变得更有生产力,所以你以这种方式看到团队生产力的分布变得更广了。
舍温·吴(Sherwin Wu)
所以,我作为管理者,一直坚持的一个管理理念是,实际上把大部分时间花在顶尖表现者身上,确保他们不被阻碍,确保他们开心,确保他们感到有生产力,感到被倾听。我认为在一个 AI 世界里,这更加正确,因为你的顶尖人才会利用这些工具飞速前进。我认为一个例子就是那个维护 100% Codex 生成代码库的团队,就让他们放手去干,看看会发生什么,这已经带来了回报。所以这是我看到的一个趋势,管理者把更多时间花在顶尖表现者身上,我认为这很可能会继续下去。另一件事,这是一个观察,我的感觉是,随着管理者可以使用很多 AI 工具,不是写代码,而是像连接了组织知识的 ChatGPT,能够进行研究,更好地理解组织背景。另一个好例子是我们正在进行绩效评估,使用连接到内部知识(如 Github、Notion 文档、Google 文档)的 ChatGPT 真的很容易,可以很好地了解这个人过去 12 个月做了什么,甚至可以写一份简短的研究报告。我的感觉是,在这个世界里,管理者将能够管理更大的团队。有点像软件工程师管理 20 到 30 个 Codex 智能体。我的感觉是,这些工具将使管理者,人事管理者,能够获得更高的杠杆作用。它将使他们能够管理比当前最佳实践多得多的团队。所以我认为软件工程大约是 6 到 8 个人,对吧?你可以看到这适用于非工程领域,比如支持或运营,以前支持团队的规模可能受限,但随着你可以把更多事情交给智能体,你实际上可以做更多工作,也能以这种方式管理更多人。
舍温·吴(Sherwin Wu)
我认为同样的事情也可能发生在人事管理上,尤其是在科技公司。我们已经看到了这一点。有些团队,他们的工程经理管理者相当多的人,而且他们做得相当不错,因为有了这些工具,他们可以获得更高的杠杆作用,更好地了解他们的团队在做什么,更好地理解组织背景,并以那种方式运作。
伦尼(Lenny)
我喜欢你说的这种方式,你总是倾向于顶尖表现者,花更多时间与他们在一起,为他们扫清障碍,确保他们开心。就像马克·安德森(Marc Andreessen)在我们的播客上说的,你描述的方式是,AI 让好人变得更好,让优秀的人变得卓越。而你在这里说的是,越来越多地这样做可能是正确的做法,花更多时间与你团队中最优秀的人在一起,为他们扫清障碍,确保他们拥有所需的一切。
舍温·吴(Sherwin Wu)
是的,现在有个很好的例子。可以说,内部有一群工程师,他们是 Codex 的重度爱好者,正在思考与这个模型互动的最佳实践是什么。这对他们来说是一件杠杆作用极高的事情。所以作为管理者,我就只是说,是的,去探索这个吧,无论从中得出什么最佳实践,我们都要与整个组织分享。我们会举办所有那些知识分享会议,分享文档,到处分享最佳实践。所以这样的事情,就能提升每个人。所以我把它看作是我们看到的这个趋势的另一个例子,即顶尖表现者变得真正卓越。
伦尼(Lenny)
人们只是有一种感觉,这事很重大。AI 正在改变如此之多。世界正在改变。这将是一件大事。你认为人们还没有充分预料到什么将会改变?还没有意识到事情会走向何方?举个例子,你认为有什么是"哦,我们还没意识到这一点"?
舍温·吴(Sherwin Wu)
嗯,我最喜欢的一句话,或者说整个 AI 浪潮中出现的一个概念,就是"单人十亿美元创业公司"的想法。我想可能是 Sam 创造的,或者 Sam 甚至可能是第一个说这话的人。想想这个很迷人,对吧?是的,如果人们的杠杆作用如此之高,那么在某个时候,很可能会出现一个单人十亿美元创业公司。虽然我认为这很酷,但我认为人们还没有真正预料到这事的第二或第三阶效应。因为单人十亿美元创业公司意味着,一个人可以利用这些工具拥有如此多的能动性和如此高的杠杆作用,以至于他们可以极其容易地完成他们业务所需的一切,最终创造出价值十亿美元的东西。
舍温·吴(Sherwin Wu)
但我认为这还有其他几个含义。其中之一是,如果一个人能创造出一个单人十亿美元公司是容易的,或者如果一个人有可能创造出单人十亿美元公司,那也意味着人们总体上更容易创业。我实际上认为这会是……这个现象的一个第二阶效应是,我认为会出现巨大的创业潮,就像 SMB 式的繁荣,任何人都可以为任何事构建软件,对吧?你已经开始在 AI 创业圈看到这一点了,软件变得更加垂直化,这些垂直领域的 AI 工具往往效果很好,因为你深入那个特定领域,你真正理解用例。所以如果你推演下去,没有理由不能有比现在多一百倍的这类创业公司。
舍温·吴(Sherwin Wu)
所以我认为我们可能会看到的一个世界是,为了赋能一个单人十亿美元创业公司,可能会有 100 个其他小公司在构建定制的软件,这些软件效果非常好,用来支持其他类型的单人十亿美元创业公司。所以我认为我们可能实际上正在进入 B2B SaaS 的黄金时代,以及整个软件即服务领域。所以我认为这是一个非常有趣的趋势,因为随着构建软件变得越来越容易,随着运营一家公司变得越来越容易,你可能实际上会看到更多这类创业公司。
舍温·吴(Sherwin Wu)
所以我一直在想的是,是的,可能会有一个单人十亿美元创业公司,但也可能会有 100 个千万美元级别的创业公司,可能会有成千上万个百万美元级别的创业公司。作为一个个体,拥有一个千万美元级别的生意其实非常棒。那个数目足够让你一辈子衣食无忧了。所以我们可能真的会看到这方面的爆发。我感觉人们还没有真正预料到这一点。这还有另一个第三阶效应。所有这些,我想你预测得越远,不确定性就越大。我认为如果我们最终走向这样一个世界,有这些微型公司为一个人或两个人拥有和运营的公司构建软件,那么创业生态系统将会改变。风险投资生态系统将会改变。我们可能最终会进入一个世界,只有少数几个大玩家提供平台,支持所有这些创业公司。但是,能够真正实现百倍或千倍投资回报的、规模回报的那种创业公司,如果你最终有了许多这些千万到五千万美元级别的公司,这个数量可能实际上会减少。这些公司对于风险投资的回报来说并不理想,但对于那些现在真正投入 AI 为自己建立这些生意的高能动性个体来说,却非常棒。
伦尼(Lenny)
我喜欢我们经历了这么多"阶",比如第几阶效应。现在是第四阶效应了,我敢肯定。我只是在开玩笑。
舍温·吴(Sherwin Wu)
我不能,这是第二阶。对我来说,第二阶效应,我无法想那么远。
伦尼(Lenny)
这就像《盗梦空间》,每次你深入一层,一切都会变慢。是的,是的,每一层。好的,关于十亿美元创业公司,我一直在想这个问题,因为我不会成为十亿美元创业公司,因为我现在做的事情无论如何都不是风险投资规模,也不是超级高杠杆,但我能看到我收到多少支持工单,都是些最荒谬的事情。
舍温·吴(Sherwin Wu)
是的。
伦尼(Lenny)
我很难想象一个人能做到,我对这个十亿美元创业公司持悲观态度。我只是想分享这个想法。仅仅是因为支持成本,即使 AI 在帮你,达到十亿美元,除非你的年度合同价值非常高,而且你的客户非常少。我只是应付支持和人们,他们可以自己解决他们的问题,但他们却选择发邮件给支持,询问这件事。根据我的经验,处理这些是很难规模化的。所以除非你有一堆合同工,我不确定那算不算单人公司,我觉得很难将一家十亿美元创业公司规模化,并且至少没有人帮你做支持工作,而我认为 AI 只能帮你到一定程度。
舍温·吴(Sherwin Wu)
嗯,我认为这是对的。实际上,我的看法略有不同。我认为你的 Lenny 的播客最终可能会成为一个十亿美元创业公司。但我认为可能发生的情况是,不是你一个人必须派遣 AI 去解决和修复那些支持工单。我认为可能发生的是,会出现一大批其他的创业公司,它们正在构建软件,并且超级,超级贴合你可能的需求。所以可能会有 10 到 20 家创业公司为播客和新闻通讯构建支持软件。那可能是一个单人创业公司。它不需要是一个大公司。他们可以非常容易地编写出这个产品,他们能够构建自己的东西。而且因为它如此定制、独特,并且希望对你来说有用,可能会是你作为那个单人十亿美元创业公司会购买的东西。我会买的。
舍温·吴(Sherwin Wu)
是的,有一个问题是,你哪些东西内部做,哪些外包。我认为可能发生的情况是,由于运行软件和构建产品的成本急剧下降,你可能会外包很多这样的事情,从而缩减你公司的规模。这就是我认为可能发生的世界。同样,这里有很大的不确定性,最终的结果可能仍然是一个人驱动这个高杠杆的公司,实际上可能达到十亿美元。
伦尼(Lenny)
我可以看到这一点。我也在想 Peter 和他的 Claude Bot / Mulbot / OpenClaw,他现在被所有这些请求、邮件、消息、私信和 PR 淹没了。我就是好奇想看看,而且他还没从这件事上赚到一分钱。
舍温·吴(Sherwin Wu)
我无法想象他现在是什么感觉。一定完全疯了。可能就像我们发布 ChatGPT 后的那个月一样疯狂。
伦尼(Lenny)
作为一个人的公司。是的,顺便说一句,他一周后会来参加播客。
舍温·吴(Sherwin Wu)
那太令人兴奋了。
伦尼(Lenny)
也许第四阶效应是,分销变得越来越重要,因为有太多该死的东西试图吸引你的注意力。所以拥有受众和平台的人,我认为,会变得越来越有价值。这是好事。好的内容。好的,我想回到你的管理话题。我非常喜欢你关于花更多时间与顶尖表现者共事对你非常成功的见解。考虑到你是一个管理着一个团队的经理,这个团队正在构建为整个 AI 经济提供动力的平台,基本上每个 AI 创业公司都在你的 API 上构建。显然,你做得非常出色。你有哪些核心的管理经验?你觉得什么非常重要,并且是你作为工程师和人员管理者的成功关键?
舍温·吴(Sherwin Wu)
是的,我认为我在这里学到的很多经验,我不知道对于 OpenAI API 或者企业产品来说有多特别。我认为我的管理理念当然随着时间的推移而改变,但我觉得它保持不变的地方多于它改变的地方。其中一个原则就是我之前和你谈到的,那就是花大量时间与顶尖表现者在一起。具体来说,就是把超过 50% 的时间花在你的顶尖表现者身上,也许是顶尖的那 10% 的表现者,并真正尽你所能去赋能他们。我思考这个问题的方式,会回到软件工程师作为外科医生的类比,这来自《人月神话》这本书。有趣的是,我是从书里引用的,但在书中,他们实际上描述了一个世界,我想他们当时是在预测未来。因为这本书大概写于 70 年代。他们说软件工程可能会发展到一个世界,软件工程师就像外科医生。或者像在手术室里,有一个人在做工作。有一个人在切割或者做所有的手术,房间里的其他所有人都在那里只是为了支持他。而护士、助理、住院医生、研究员,然后外科医生说"我需要一把手术刀",他们就把手术刀递给他。然后他们说"我需要这个工具,这台机器",他们就会拿过来。每个人都在那里只是为了支持那一个外科医生。所以《人月神话》实际上预测这是软件将要发展的方向。我不认为这完全实现了,它更像是协作性的,不仅仅是一个人做所有工作。但我一直很喜欢这个比喻。而这个比喻实际上正是我努力在我的管理理念中效仿的,那就是软件工程并不是真正像外科手术那样,不只是一个人做工作,但我对待团队里的人和作为管理者的行为方式是,我想赋能他们,让他们感觉自己像个外科医生,就确保我支持他们,确保他们拥有完成工作所需的一切,让他们感觉好像有一群人在支持他们,为他们观察四周,在他们需要的时候给他们所需的一切,而实际上只有我这个经理。所以我举的例子是,观察四周,为人们扫清障碍,特别是从组织的角度,这非常有用。再回到关于 AI 的对话,这在现在甚至更重要,对吧?如果人们只是在疯狂地提交一个接一个的 PR,那么阻碍进展和交付的主要瓶颈往往是组织性或流程性的。如果你作为经理能够观察四周,为团队扫清障碍,如果你能做到,就像如果外科医生需要手术刀,但经理已经为他们准备好了手术刀,那是最理想的情况。这就是我对待管理的方式,特别是工程管理。所以这对我来说一直很重要。即使软件工程师不完全是外科医生,这个比喻在我的职业生涯中一直留存在我脑海里。
伦尼(Lenny)
我喜欢这个。我想知道这是否是 AI 可以提供帮助的事情,观察四周,预测这个工程师会被这个决定阻碍。我们需要解决这个问题。
舍温·吴(Sherwin Wu)
是的,这确实是个好主意。我还没试过,但我想知道如果我让连接了公司知识的 ChatGPT 看看,"团队当前有哪些活跃的阻碍?"浏览所有 Notion 文档,也许还有 Slack 消息,它可能在 Slack 的某个地方。"我团队当前有哪些活跃的阻碍?有什么我可以帮忙的吗?"嗯,这很有意思。我没想到过。
伦尼(Lenny)
就在我们这里,你们有了一个见解。我认为甚至更有趣的是,你预计在未来几个月,这位工程师或这个团队会遇到什么阻碍?或者是的。
舍温·吴(Sherwin Wu)
你可以问模型,让 AI 做第二和第三阶的事情,预测那些,并预测下个月会有什么阻碍。
伦尼(Lenny)
我们这里有了个好主意。本期节目由 DataDog 提供,DataDog 现在也是 Eppo 的所在地,Eppo 是领先的实验和功能标志平台。世界顶尖公司的产品经理使用 DataDog,这个平台也是他们的工程师每天依赖的平台,将产品洞察与产品问题(如错误、用户体验摩擦和业务影响)连接起来。首先从产品分析开始,产品经理可以观看回放、审查漏斗、深入研究留存率并探索他们的增长指标。在其他工具停止的地方,DataDog 走得更远。它实际上帮助你诊断漏斗下降、错误和用户体验摩擦的影响。一旦你知道关注点在哪里,实验就能证明什么有效。我在 Airbnb 时就亲眼目睹了这一点,我们的实验平台对于分析什么有效以及哪里出了问题至关重要。而当年在 Airbnb 建立实验平台的同一个团队,在 DataDog 建立了 Eppo。然后 DataDog 让你通过会话回放超越数字,精确观察用户如何使用热图和滚动图交互,真正理解他们的行为。所有这一切都由与实时数据关联的功能标志提供支持,这样你就可以安全地推出、精准定位并持续学习。DataDog 不仅仅是工程指标。它是优秀产品团队学习更快、修复更智能、自信交付的地方。在 datadoghq.com/lenny 请求演示。网址是 d-a-t-a-d-o-g-h-q 点 com 斜杠 lenny。好的,我打算转向谈谈你们构建的 API 和平台。所以你和很多公司合作,他们实现你的 API,在你的平台上构建,使用你的工具。你告诉我,你发现很多公司在他们的 AI 部署上实际上是负 ROI,我认为这是很多人读到、感受到和想到的。有趣的是看到了这一点。那里发生了什么?他们做错了什么?在 AI 部署和 ROI 的世界里发生了什么?
舍温·吴(Sherwin Wu)
是的,要明确的是,我并没有明确看到这方面的量化数字。你知道,衡量这些东西真的很难,但特别是通过观察一些试图做 AI 的公司,如果很多 AI 部署实际上是负 ROI,我不会感到惊讶。我部分认为,这也有来自全国各地的人们(基本上在科技行业之外)的普遍情绪,认为 AI 是被强加给他们的。我认为这可能是某些负 ROI 的 AI 部署的一个症状。
舍温·吴(Sherwin Wu)
我观察到关于这方面的几件事。一件事是,我想我一次又一次地回到这一点,那就是我们硅谷的人忘记了我们生活在一个泡沫里。我们太……Twitter 是一个泡沫,抱歉,X 是一个泡沫。硅谷是一个泡沫,软件工程是一个泡沫。世界上大多数人,美国大多数人,不是软件工程师,不是非常 AI 化,没有关注每一个模型发布。所以我们完全不了解如何使用这项技术。所以我们总是谈论所有这些关于 Codex 的最佳实践,所有这些 OpenAI 内部 Codex 化的人。我相信每个在 X 上发帖的人都是这些 AI 工具的狂热超级用户。他们投入到 skills,投入到 agent.md。
舍温·吴(Sherwin Wu)
是的。所有那些。当我和一些公司交谈,和实际使用这些东西的员工交谈时,他们做的都是最基本的事情,而且他们对这项技术究竟如何工作了解甚少。所以对我来说,这是一个重要的观察,那就是他们问这些工具的问题非常简单,他们还没有真正推动它。这又回到了我认为更多公司所做的,或者可能做的,或者更理想的 AI 部署设置是什么样的。
舍温·吴(Sherwin Wu)
这也大致是我们在 OpenAI 内部运作的方式。那些我认为开始效果很好的公司,既有自上而下的支持,比如 C 级管理层说,我们要成为 AI 优先的公司,所以有支持,他们购买工具,他们有明确的支持,但也有自下而上的采纳和认同。我的意思是,有实际做工作的员工,他们对这项技术真的感到兴奋,并且愿意学习、传播、建立最佳实践。这就像在组织内部分享知识。我们在内部也看到了很多。所以很明显,OpenAI 一直想成为一家非常以 AI 为中心的公司,但真正开始腾飞的时候,是在引入 Codex 和这些工具之后,那时像实际员工自己才能开始将其应用到他们的工作中。我认为你真的需要这个,因为归根结底,每个人的工作都非常不同,非常独特。软件工程不同于财务,不同于运营,不同于市场推广和销售。所以有很多最后一步的工作细节需要真正以自下而上的方式完成。所以我的感觉是,很多数据部署没有自下而上的采纳。它们只是一个明确的指令,完全是自上而下的,与实际工作脱节。最终的结果是你有一个庞大的劳动力群体,他们并不真正理解这项技术,他们知道我应该使用它,也许我的绩效评估里也有这项,但我不确定该做什么。他们环顾四周,没有人在做。没有其他人可以学习。所以我对推动这个的公司的建议是,找到,甚至可能在内部配备一个全职团队,作为一个内部的攻坚团队,可以探索全部能力,应用到特定工作流程,进行知识分享,在可能想使用这项技术的人中创造兴奋感。因为没有这个,真的很难,实际上很难上手。
伦尼(Lenny)
你会把谁放在这个攻坚团队里?是由工程师领导吗?根据你的经验,它是一个跨职能的战略团队吗?
舍温·吴(Sherwin Wu)
是的,这很有意思,因为很多公司也没有软件工程师。我看到的模式是,往往是那些与软件工程相邻的,基本上是技术人员但不是软件工程师的人。我认为这些人往往对此最兴奋。可能是支持团队或运营团队的负责人,他们不写代码,但喜欢使用这些工具,是个 Excel 高手之类的。所以他们是技术相邻或编码相邻,技术相当不错。在这些公司里,我看到的就是这类人,他们真的会眼前一亮,对此感到兴奋。你通常可以围绕他们建立一个团队。
舍温·吴(Sherwin Wu)
但确实,通常不是软件工程师,我想会理解这一点,但不是每个公司都有软件工程师,软件工程师实际上是一种稀缺资源。他们很难找到,也很昂贵。所以是这些其他类型的人。
伦尼(Lenny)
我听到的是,反模式是自上而下。CEO 发现了一个确切的团队,就像"我们要成为 AI 优先,我们要投入 AI。每个人都将根据他们使用 AI 工具的表现来评判,你的生产力因 AI 提高了多少。"而如果没有这个,只有自上而下,没有创建一个自下而上传播福音的团队,你发现它不起作用。完全正确。建议是,找到那些最兴奋的人,而不是让他们分散在整个组织中,你发现有效的方法是创建一个小型的、类似布道师团队,找到使用它的方法,并在整个组织中传播它。
舍温·吴(Sherwin Wu)
是的,我的意思是,另一个角度,听你向我复述,另一种思考方式,回到我自己的管理理念,就是找到 AI 采纳方面的高绩效者,并赋能他们。让他们举办黑客马拉松,让他们举办研讨会,分享知识,在内部创造兴奋的种子。
伦尼(Lenny)
好的,太棒了。我想听你分享一些热门观点。我看到你分享过和谈论过一些。一个是,你分享过,在 AI 领域,与客户交谈和倾听客户的意见并不总是正确的策略,而且常常会让你误入歧途。
舍温·吴(Sherwin Wu)
我不知道这是不是那么热门的观点。我认为这里主要的事情是,显然你应该与客户交谈。与客户交谈是有用的。我只是认为 AI 领域,特别是过去三年我在 API 工作并看到所有发展的经历,就是领域本身和模型本身变化太快了,它们往往会自我颠覆,特别是在工具和脚手架空间方面。
舍温·吴(Sherwin Wu)
所以,本周早些时候我读到一篇文章里的一句话,来自一个叫 Nicholas 的人,他是一家名为 Fin Tool 的初创公司的创始人。我想他分享了很多通过为金融服务构建 AI 智能体学到的实践经验。在 Fin Tool 这家初创公司。我的意思是,我觉得这句话非常好,那就是"模型会毫不费力地吞噬掉你的脚手架"。如果你回顾 2022 年,ChatGPT 刚推出的时候,这些模型还相当原始,有很多产品脚手架之类的东西,特别是在开发者领域,基本上是为了尝试引导模型,围绕它建立脚手架,让它做你想做的事。
舍温·吴(Sherwin Wu)
像智能体框架,像向量存储,我记得那时很流行,还有一大堆工具。随着你看到这个领域的发展,模型已经变化太大了,变得好太多了,以至于它们最终,是的,字面意义上地吞噬了一些脚手架。我认为即使在今天也是如此。
舍温·吴(Sherwin Wu)
所以,我认为 Nicholas 的文章里提到,当前流行的脚手架是基于 skills 文件的上下文管理。我可以看到一个世界,在某个时候,这不再有用,模型实际上可以自己管理所有这些。或者,或者可能,很难预测,可能会转向一些新的范式。你已经亲眼看到了这一点,对吧?像智能体框架之类的东西现在有点不那么有用了。在 2023 年的一段时间里,我们认为向量存储将是主要方式,让你将组织背景带入模型,你需要向量化和嵌入你的每一部分语料库。然后你做所有这些工作来弄清楚向量搜索,优化它,在正确的时间筛选出正确的信息。所有这些都是脚手架,因为模型不够好。
舍温·吴(Sherwin Wu)
事实证明,随着模型变得更好,更好的方法是取出很多这样的逻辑,信任模型,并给它一套搜索工具。它不需要是向量存储。你可以实际上把它连接到任何类型的搜索。它可以是文件系统上的文件,比如 skills 和 agents.md 里的东西,来引导它。
舍温·吴(Sherwin Wu)
显然,向量存储仍有其一席之地。我知道很多公司还在用它。但是,围绕它的整个脚手架,以及建立一个完整的更高层生态系统,并假设那是你唯一需要的脚手架,这已经发生了很大变化。所以把这与你并不总是需要听从客户的意见联系起来,因为领域变化太大了,在任何时候,很多人都在某种局部最优解里。如果你只是盲目地听从客户的意见,他们会说,是的,我想要一个更好的向量存储。我想要一个更好的智能体框架。如果你只是沿着那条路走,那实际上会引导你构建一些东西。但这又是局部最优解。而随着模型变得更好,我们不得不重新发明和重新思考围绕这些模型构建的正确抽象和正确工具和框架。而酷/令人兴奋/有点疯狂和烦人的部分是,这是一个移动的目标。所以,是的,就像当前的一堆工具和框架,很可能需要随着模型变得更智能和更好而随着时间的推移发生重大演变和变化。但这正是这个领域的本质。我认为这就是它令人兴奋的地方。但这也意味着,当你与客户交谈时,你需要平衡他们想要的确切反馈与你认为模型的发展方向以及未来一两年事物的发展趋势。
伦尼(Lenny)
有趣的是,这就是"苦涩的教训",你知道,AI 和机器学习人员学到的这个大教训,那就是,不要过度复杂化,你添加到机器学习和 AI 的逻辑越少,它就越能扩展和成长。只要让它一路走下去,让它计算,基本上就是给它更多的力量去获得。
舍温·吴(Sherwin Wu)
是的,有一个版本的"苦涩的教训"适用于用 AI 构建,那就是我们试图架构所有这些围绕的东西,结果发现模型就是会吞噬掉这一切。老实说,OpenAI API 团队也曾犯过这个错误,我们在不该左转或右转的时候转了向。但是,模型仍然会变得更好,我们日复一日地都在学习这个苦涩的教训。所以,对于那些在 API 上构建,或者只是在构建智能体,并且现在不得不构建一些围绕它的东西的人来说,关键要点是什么?你的建议是什么?
舍温·吴(Sherwin Wu)
我的总体建议,我已经给人们一段时间了,我认为今天仍然适用,那就是确保你是在为模型将要发展的方向而构建,而不是为它们今天的样子而构建。这显然是一个移动的目标。我认为我见过的很多做得好的公司,我见过的做得好的初创公司,它们为一个理想类型的能力构建产品,这种能力今天可能已经实现了 80%。它们最终拥有的产品是可行的,但几乎就在那里。但是随着模型变得更好,突然间它可能就成功了,然后它们的产品现在就变得不可思议,因为它能工作了。也许在某个时间点用 0.03 不行,但到了 5.1、5.2,突然间就解锁了。但它们构建这些产品时,是把模型能力的提升考虑在内的。这样做,你最终创造出的体验,会比一开始就假设它是静态的要好得多。
舍温·吴(Sherwin Wu)
所以这是我的总体建议,那就是为模型将要去的方向构建,而不是它们今天所在的地方。你最终会构建出更好的产品。你可能需要等待一点,但模型进步得如此之快,你往往不需要等那么久。
伦尼(Lenny)
顺着这条线,在未来 6 到 12 个月,API 的发展方向是什么?平台的发展方向是什么?模型的发展方向是什么?在你能分享的范围内。这里有很多秘密,也许你更兴奋,或者你认为人们应该开始准备的,以及任何你能分享的。
舍温·吴(Sherwin Wu)
我的意思是,显而易见的一个是这些模型能够连贯地执行多长的任务。有一个叫 Meter 的基准测试,我认为它追踪软件工程任务以及这些模型能在 50% 的情况下,80% 的情况下执行多长的任务。我认为我们现在的水平是,这些前沿模型能够在 50% 的情况下完成多个小时的任务。而 80% 的情况下能完成的任务长度大概是不到一小时。但关于那张图,令人警醒的一点是,他们在图上标出了所有以前的模型。所以你真的可以看到这个趋势。
舍温·吴(Sherwin Wu)
这是我真正感到兴奋的一件事,那就是,我认为现在的产品真正优化的是模型一次能执行几分钟的任务。即使是 Codex 和编码工具,它也处于互动阶段,它非常优化于最多 10 分钟类型的任务。我见过有人把 Codex 推到极限,做多个小时的长任务。但再说一次,我认为那更像是例外。但如果你跟随这个趋势,我认为在未来 12 到 24 个月,我们可以看到能够非常连贯地执行多个小时任务的模型。在某个时候,它可能能达到六小时一天的长任务,你大致派发它出去,让它自己工作一段时间。你围绕它构建的产品类型会非常不同。你想给模型反馈。你显然不希望它疯跑一天。也许你想,但可能不想。然后模型能做的事情的范围真的会扩大。所以这是我非常期待看到的。
舍温·吴(Sherwin Wu)
未来 12 到 24 个月我认为会非常酷的另一件事是,多模态模型的改进。实际上,说到多模态,我主要想到的是音频。模型在音频方面已经相当不错了。我认为在未来 6 到 12 个月,它们在音频方面会变得更好,特别是原生的端到端语音模型。我认为在音频的多模态模型和架构方面,也有一些有趣的工作正在进行。但音频,特别是在企业和商业环境中,我认为仍然是一个被大大低估的领域。每个人都在谈论编码,都是文本,但我们是用音频在交谈。世界上很多业务是通过音频完成的。很多服务和运营是通过谈话和音频完成的。所以我认为这个领域在未来 12 到 18 个月会非常令人兴奋。我认为我们在音频模型方面能做的事情还会有更多解锁。
伦尼(Lenny)
太棒了。所以快速总结一下,期望智能体和 AI 工具运行时间更长,那个轨迹会继续增加。然后音频和语音会变得更重要,更原生,更好,成为核心体验。是的,非常酷。好的,我想回到你的一个热门观点,我见过的你讨论的另一个热门观点。你对业务流程自动化作为 AI 世界中的一个机会非常看好。谈谈这个。
舍温·吴(Sherwin Wu)
是的,这又回到了我之前说过的事情,我们生活在硅谷的泡沫里。我们做的很多我们习惯的工作,软件工程、产品管理、构建产品,与运行我们整个经济的工作形态非常不同。我现在在和客户交谈时看到了这一点。如果你和任何非科技公司交谈,那里有很多业务流程。
舍温·吴(Sherwin Wu)
我这么说的意思是,我通常会区分一下,你知道,软件工程有点像开放式的知识工作。这就是为什么我认为像 Codex 这样的工具往往非常好,因为它是在探索,你在给它这些开放式的东西。但软件工程从根本上来说是非常开放式的,不是很可重复的,对吧?你构建一个功能,你不会试图一遍又一遍地构建完全相同的功能。很多科技工作都在这个领域。我认为数据科学也在其中,甚至一些战略财务工作也是。但是,当你离软件工程和科技核心越来越远时,很多工作就是业务流程。它们是重复性的工作,重复性的操作。那是某家公司的某个管理者反复迭代出来的。通常有一个标准操作流程,人们想照做,不想偏离太多。你知道这在软件工程里,独创性就在于不偏离。但是世界上正在做的很多工作实际上只是运行这些流程和操作。如果我给支持热线打电话,他们在运行其中一个流程。如果我给我的公用事业公司打电话,他们有一堆流程和事情能为我做或不能做。所以我对这个广泛的类别非常看好。而且我认为它被低估了,因为它与我们硅谷的想法如此不同。人们往往不会想到它。但是我们如何将 AI 和我们拥有的一些工具和框架应用于这个业务流程自动化,应用于自动化,使重复性的业务流程更容易、具有高确定性、完全与业务数据、业务决策和企业内的不同系统集成。我如何能让那个流程变得更好?因为我认为那个领域有很大的机会和很多工作要做,而我们只是不谈论它,因为它不太在我们的视野范围内。
伦尼(Lenny)
你在这里,只是为了确保我完全理解,你是说,在工程领域之外,AI 有更大的机会来影响公司的生产力,以及那些做这些重复性、易于自动化任务的人的工作。
舍温·吴(Sherwin Wu)
影响工作,也影响工作的完成方式。这么多的工作都是以这种方式完成的。你可以想象,基本上我们,我经常和客户交谈,大企业,"AI 将如何改变我的公司?在一个有 AI 的世界里,20 年后它会如何运作?"软件工程是故事的一部分,但在业务流程方面还有更多。我实际上认为,在业务流程方面,它看起来甚至可能更不同,那里的工作非常庞大。实际上很有趣。我不知道从绝对百分比或绝对基数来看,它是否比软件工程更大或更小。软件工程也很大,也很昂贵。但它确实很大,肯定比你根据人们在 X 上谈论或不谈论它的方式所想象的要大。
伦尼(Lenny)
好的,稍微换个方向。既然你已经构建了一个平台,构建了 API,人们在 API 上构建。人们心中最大的问题总是,"我如何不让 OpenAI 抄袭我的想法,并构建他们自己的东西?然后,你知道,摧毁我创造的这个火花。"总体政策是什么?总体理念是什么?创业公司应该如何看待 OpenAI 不太可能进入的领域?
舍温·吴(Sherwin Wu)
我的一般答案是,市场如此之大,如此之广阔。我实际上认为,创业公司不应该过度思考 OpenAI 或这些实验室会走向何方。我和很多创业公司谈过,有些没成,有些做得非常好。我见过的每一个最终逐渐消失的创业公司,都不是因为 OpenAI 或某个大实验室或 Google 之类的来竞争了。而是因为他们构建了一些东西,但并没有真正引起客户的共鸣。而那些腾飞起来的,即使是在竞争非常激烈的领域,比如编程领域,Cursor 现在也做得很大。这是因为他们构建了人们真正喜欢的东西。所以我的总体建议是,不要过度为此焦虑。只管构建人们喜欢的东西,你就会在这个领域有立足之地。
舍温·吴(Sherwin Wu)
我怎么强调都不为过,现在机会有多大。用 AI 构建的机会空间是如此之大。这方面的一个好例子是。空间如此之大,以至于对于 VC 来说,什么是可接受的、什么是不可接受的窗口已经完全改变了。VC 们现在左右逢源,投资于互相竞争的公司,就是因为空间太大了,机会是我们以前从未见过的。虽然你知道,这影响了 VC 从创业公司角度的运作方式,但这对你来说却是世界上最赋能的事情。因为即使你只是构建了一些人真正喜欢的东西,你最终也会得到一个非常有价值的企业。所以我告诉你,不要为此焦虑。
舍温·吴(Sherwin Wu)
另一件事,我也认为记住这一点很重要,至少从 OpenAI 的角度来看,我们一直非常珍视的一件事,Sam 和 Greg 也从高层不断强调的,是我们基本上将自己视为一个生态系统平台公司。API 是我们的第一个产品。我们认为,培养这个生态系统,继续支持它,而不是扼杀它,对我们来说非常重要。所以如果你看看我们做的决定,都是这样。我们发布的每个模型,在某个产品里,都会发布到 API。即使我们发布这些 Codex 模型,它们有点更针对 Codex harness 进行了优化,但它们总能进入 API。我们所有的客户最终都能使用它们。我们在这方面没有任何保留。我们认为保持我们的平台中立性非常重要。所以我们不阻止竞争对手。我们允许人们访问我们的模型。我们也想,我们最近也在测试更多像"使用 ChatGPT 登录"这样的产品。所以我们想培养这个生态系统。我认为这样做非常重要。所以一般的思考方式是,水涨船高。我们可能是一艘航空母舰,现在相当大了,但我们认为提高水位很重要。因为每个人都受益。我认为我们也会受益,比如我们的 API 本身也因为我们的这种行为而增长得相当显著。所以我真的鼓励人们不要将 OpenAI 视为那种会把别人推开的东西,而是专注于构建有价值的东西。我们仍然致力于提供一个开放的生态系统。
伦尼(Lenny)
为什么这对 OpenAI 很重要?只是这种专注于构建一个平台,创造一种让人们建立企业的方式,这只是从一开始的愿景吗?我们希望这是一个平台?
舍温·吴(Sherwin Wu)
从一开始就是这样的愿景。实际上可以追溯到我们的章程,我们的使命。这个组织一直想要构建 AGI。所以我们知道我们追求的是什么。但其次是,将其好处传播给全人类。那里有很多,主要部分是"全人类"。显然,ChatGPT 正试图做到这一点,我们正试图覆盖尽可能多的人,全世界。
舍温·吴(Sherwin Wu)
但很早以前,这就是我们推出 API 的原因,我想是在 2020 年左右,非常早。我们不认为我们作为一家公司能够接触到全人类,对吧?世界上每个角落都那么深。所以我们实际上觉得,为了实现我们的使命,我们需要某种平台式的东西,在这里我们可以赋能其他人去构建,比如为播客和新闻通讯主持人构建的客户支持机器人,因为我们自己没办法做到。我们在 API 上很大程度上看到了这一点。这就是为什么我们和这么多客户交谈,真的很喜欢看到基于此建立起来的城市。但是,是的,这从一开始就存在,因为我们把它看作是使命的一种表达。
伦尼(Lenny)
你甚至没有提到你们正在推出的 ChatGPT 应用商店。顺便问一下,那是在你的管辖范围内,还是另一个不同的组织团队?
舍温·吴(Sherwin Wu)
这是一个不同的团队。它在 ChatGPT 那边。我们显然与他们密切合作。他们构建了一个应用 SDK,与我们的团队密切合作构建的,但这更多属于 ChatGPT 的范畴。但这也是另一个例子,对吧?就像 ChatGPT 有大约 8 亿的周活跃用户,他们一次又一次地来。作为一项业务,这是一个很棒的资产。但是,如果我们能允许其他公司也进来,利用这个优势,也为这个受众构建,那不是更好吗?最终,我们认为这也会帮助我们扩大这个群体,对吧?所以一切都回到使命上,我们发现作为一个平台,保持开放,往往在这方面有帮助。
伦尼(Lenny)
800 万?我以为是 8 亿。只是像……
舍温·吴(Sherwin Wu)
不,是周活跃。哦,是的,太疯狂了。
伦尼(Lenny)
十亿人每周在使用。我只是觉得,这太荒谬了,正在发生,我们现在已经习惯了这些数字。但这太疯狂了。史无前例。
舍温·吴(Sherwin Wu)
是的,老实说,从规模的角度来看,这对我来说是难以想象的。我的想法是,世界人口的 10% 并且在增长,顺便说一句,它在飞速增长。每天或每周都来使用 ChatGPT。
伦尼(Lenny)
在这一点上,我只想强调你正在提出的这一点。OpenAI 的使命是让 AI 惠及全人类。我认为有些人会想,哦,你知道,要花钱。但事实是,有一个免费版本的 ChatGPT,任何人都可以使用,它与世界上最强大的 AI 模型差别不大,而且是免费的,没有门槛。如果你有,如果你是亿万富翁,你从 AI 中能获得的,也仅仅比某个在非洲村庄里的人能获得的多一点点。我知道这对 OpenAI 来说一直非常重要。
舍温·吴(Sherwin Wu)
我的意思是,这就是为什么我们投入到了医疗保健。我们投入到教育,这会非常有趣。另一个疯狂的趋势是,随着时间的推移,免费模型变得如此智能。2022 年的免费模型,在当时是好的,但与今天你得到的相比,简直不值一提,因为你今天能得到 o1。所以提高全世界的地平线,是我们真正努力想做的事情,我们视其为我们使命的一部分。
舍温·吴(Sherwin Wu)
另一方面,你知道,谈论到亿万富翁什么的。我知道人们在说,你用的是和马克·扎克伯格可能用的同款 iPhone,或者亿万富翁们用的。每月花 20 美元,你基本上就在用和亿万富翁们一样的 AI。每月花 200 美元,你就能得到和所有亿万富翁们一样的 Pro 模型。但他们可能不会在所有事情上都用 Pro 模型。他们日复一日地可能只用 Plus 层级的模型。所以,是的,这种民主化和好处的传播,遍及全世界,对我们来说意义重大,并且驱动着我们做的很多事情。
伦尼(Lenny)
最后一个问题,对于那些正在考虑在 API 上构建,或者只是觉得"哦,等等,我可以用 OpenAI 模型和 API 做很酷的事情"的人来说,你的 API 和平台允许人们做什么?我知道你可以在平台之上构建智能体。谈谈你能做什么。
舍温·吴(Sherwin Wu)
从根本上说,API 提供了一堆开发者端点。这些开发者端点基本上让你可以采样我们的模型。我们现在拥有的最受欢迎的一个叫做 Responses API。所以这是一个端点,它针对构建长时间运行的智能体进行了优化。所以智能体可以工作一段时间。所以在非常低的层面上,你基本上只是给模型文本,模型会工作一段时间。你可以查看它在做什么,然后在某个时候你会得到模型的响应。这是我们为人们提供的最底层的原语。这实际上是很多人用的,是在 API 之上构建的最流行方式。用这个,它是超级无偏见的,你基本上可以做任何你想做的事。是最底层的东西。
舍温·吴(Sherwin Wu)
我们也开始在其上构建越来越多的抽象层来帮助人们构建其中一些东西。所以再往上一层,我们有这个叫做 Agents SDK 的东西,它也变得非常流行。这允许你使用 Responses API 或其他一些我们拥有的 API 端点来构建你可能更传统意义上认为是智能体的东西,像一个 AI 在一个循环中工作。它可能有它委派的子智能体。它开始构建所有这些框架,所有这些脚手架。实际上,我们会看到这一切走向何方。但它让你更容易构建这些类型的智能体,给它护栏,允许它把子任务分配给其他智能体,并协调一群智能体。Agents SDK 大致允许你这样做。
舍温·吴(Sherwin Wu)
再往上,我们现在也开始构建工具来帮助处理部署智能体的元层面。所以我们有叫做 Agent Kits 和 Widgets 的产品,它们基本上是一堆 UI 组件,你可以用来非常容易地在我们的 API 或 Agents SDK 之上构建一个非常漂亮的 UI。因为你知道很多时候这些智能体从 UI 角度看非常相似。所以有 Agent Kit。我们还有一堆像 Evals 产品,比如 Evals API,如果你想测试,看看你的模型,或者你的智能体,或者你的工作流是否工作,你可以用我们的 Evals 产品以非常量化的方式测试它。所以是的,我把它看作是这些不同的层,它们都在帮助你用我们的 AI,用我们的模型构建你想要的东西,并且抽象层次越来越高,它的主观性也越来越强。所以你可以,你可以用整个堆栈,它会非常快地让你构建一个智能体,或者你可以沿着堆栈一直往下走,低到 Responses API,然后构建任何你想要的东西,因为它非常底层。
伦尼(Lenny)
舍温,还有什么你想分享的吗?还有什么想留给听众的吗?在我们进入非常激动人心的快问快答环节之前,我们还没有触及到的,你觉得可能有帮助的事情?
舍温·吴(Sherwin Wu)
我唯一想留给人们的是,是的,我认为未来两三年将是科技界和创业界很长时间以来最有趣的时光。我鼓励人们不要认为这是理所当然的。我 2014 年进入职场。头几年很好。我感觉有大约五到六年的时间,科技界不是很令人兴奋。然后在过去的三年里,这绝对是我职业生涯中最令人兴奋、最充满活力的时期。我认为未来两三年将是它的延续。所以,我不会认为这是理所当然的,我也在努力不认为这是理所当然的。在某个时候,这波浪潮会结束,会变得增量得多。但与此同时,我们将有机会探索很多非常酷的东西,发明很多新东西,改变世界,改变我们的工作方式。所以这是我主要想留给人们的话。
伦尼(Lenny)
我喜欢这个信息。我想花更多时间谈谈它。当你说不要错过它时,你建议人们做什么?仅仅是构建、投入和学习吗?加入一家正在构建真正有趣东西的公司?对于那些觉得"好吧,我不想错过这班船"的人,你有什么建议?
舍温·吴(Sherwin Wu)
是的,我会说,去参与其中。所以基本上就像你说的,投入进去。在它的基础上构建工具,是故事的一部分。仅仅是使用这些工具,你不必是软件工程师才能投入其中。我认为很多工作都会在这里发生变化。所以就去使用这些工具,了解它能做什么和不能做什么的局限性,这样你就可以观察趋势,看看随着模型的改进,它开始能做什么。是的,基本上就是习惯,熟悉这项技术,而不是袖手旁观,让它从你身边溜走。
伦尼(Lenny)
另一方面,我觉得有很多压力和焦虑,比如发生了这么多事,我该如何跟上?我这周得学会用 Claude。哦,天哪。是的。你是否学到了一些东西,不仅仅是因为你处于这个中心?你如何不会过度紧张和担心错过正在发生的事情,并保持与最新动态同步?你学到了些什么?
舍温·吴(Sherwin Wu)
是的,所以我认为我个人在这方面是个坏榜样,因为我基本上一直在线,在 X 和公司 Slack 上。所以我实际上试图吸收,我最终吸收了大量的信息。我要说的是,只是从观察其他不那么沉迷于此的人来说,很多都是噪音。你不需要 110% 都过一遍脑子。老实说,只投入一两个不同的工具,从小处着手,就已经超过了你的需要。我认为,行业的飞速发展加上 X 这个产品,就创造了这种疯狂的新闻节奏,说实话,这非常令人难以招架。主要是,你不需要知道所有这一切才能真正参与到正在发生的事情中。甚至像安装 Codex 客户端,玩玩它,安装连接到几个你内部数据源(Notion、Slack、Github)的 ChatGPT,看看它能做什么,不能做什么。所有这些,我认为都是其中的一部分。
伦尼(Lenny)
太棒了。舍温,说到这里,我们到达了非常激动人心的快问快答环节。我有五个问题要问你。准备好了吗?
舍温·吴(Sherwin Wu)
是的,是的,当然。
伦尼(Lenny)
第一个问题,你最常推荐给别人的两三本书是什么?
舍温·吴(Sherwin Wu)
我会谈一本非小说类,一本小说。那本小说是我刚读完的。我真的,我真的很推荐它。是 qntm 写的《There Is No Antimemetics Division》。它来自一位网络作家,但我在 X 上看到有人分享。它是一本科幻类型的书。我基本上两天内就把它看完了。它写得超级好,超级迷人。它是关于一个政府机构对抗让你遗忘的东西。所以这是一本非常聪明、有创意、而且说实话,在题材上很新鲜的书,我非常喜欢。所以我推荐这本。这本书还无意中非常搞笑。所以它本来是这种科幻恐怖类的,是本扎实的书,但它让我笑了好几次。所以这是小说类。
伦尼(Lenny)
《反模因学》这本书听起来很棒。你说话的时候我就在买了。
舍温·吴(Sherwin Wu)
它好像只有几百页。我真的两天就读完了。就是那么好看。
伦尼(Lenny)
好的,好推荐。好的,最近最喜欢的电影或电视剧,你有什么特别喜欢的吗?
舍温·吴(Sherwin Wu)
嗯,这个问题有点难,因为我有两个孩子,工作又忙,所以真的没什么时间看电视剧。我只能说,过去几周,我看了几集。我其实是个动漫迷,所以我看了几集。有个叫《咒术回战》的动漫出了新一季。第三季很好看。总的来说,我是日本动漫的超级粉丝。我认为它们创造了西方媒体回避的最新颖、最独特的剧情和世界观。所以总体来说非常喜欢。但是,是的,最近没怎么看,但最近看了几集《咒术回战》。
伦尼(Lenny)
考虑到你的角色,完全可以理解。是的,最近发现并非常喜欢的产品是什么?
舍温·吴(Sherwin Wu)
好的。我最近需要设置 Wi-Fi 和家庭网络,我全套用了 Ubiquiti 的路由器和安全摄像头。在此之前,我从未听说过它,我之前的设置一直非常简单。它的产品构建得非常好。我不知道你之前用过没有,它基本上就是家庭网络领域的苹果。产品非常漂亮,但真正让它变得极其出色的是它的软件也很好。他们有一个非常棒的手机应用来帮助管理所有的家庭网络。所以基本上就是 Ubiquiti。你可以用它来买无线路由器,你需要在家里布以太网线才能用它。但我实际上认为它真正出色的是安全摄像头。所以如果你有接入 Ubiquiti 生态系统的安全摄像头,他们有一个令人难以置信的手机应用、Apple TV 应用和 iPad 应用来查看摄像头的实时画面。它们有点贵,但也不是那么贵。但这是一个令人难以置信的产品体验。
伦尼(Lenny)
好的,我买了 Eero,所以我犯了个错误。挺好的。
舍温·吴(Sherwin Wu)
Eero 也挺好的。但我知道 Ubiquiti,我完全转用 Ubiquiti 了。没关系。
伦尼(Lenny)
就这个。好的,还有两个问题。你最喜欢的、在工作或生活中经常回想的座右铭是什么?
舍温·吴(Sherwin Wu)
是的,我经常对自己重复的一句话是"永远不要为自己感到难过"。在工作、生活中会发生很多事。提醒自己永远不要感到难过,你总是有能力把自己拉起来。这是我不得不经常告诉自己的一句话,也是我经常对其他很多人重复的一句话。
伦尼(Lenny)
最后一个问题。在你之前的职业生涯中,你在 OpenDoor 工作,负责弄清楚该为房子付多少钱。你基本上建立了一个模型,告诉公司,"我们会为这栋房子付这么多钱。"有什么你没想到的、对房价非常重要的变量,影响了房价?
舍温·吴(Sherwin Wu)
有很多令人惊讶的。我可能会列举一两个最有趣的。电线,高压电线,对价格的影响相当大。直到我去达拉斯亲自观察,我才真正完全内化这一点。当你的房子坐落在这些巨大的、嗡嗡作响的高压线旁边时,大多数人都有家庭,你不希望你的孩子靠近那里。所以我认为那是一个真正让我惊讶的因素。这很合理。
舍温·吴(Sherwin Wu)
另一个我们一直很难量化的东西是户型图。它非常重要。是的,当然它非常重要,但量化什么是好户型图,什么是真正糟糕的户型图,就像我们做了所有这些事情:厨房有多宽?是什么风格的厨房?主卧室在哪里?等等。所以真的很难量化。但记得户型图是一个大问题,因为我们会有卖不掉的房子,然后我们的运营团队进去会说,"是的,是户型图的问题。"所以你怎么能告诉我们呢?你走进去,你就是能感觉到,户型图感觉不对劲。所以那些是令人惊讶的。
舍温·吴(Sherwin Wu)
最后一个比我想象中影响更大的是一般的路边吸引力,甚至像前门。我实际上认为有本 Zillow 的书说,前门的位置往往是房子投资回报率最高的地方。但是,当你作为买家走近房子时的感觉,你与之互动的第一印象,我认为我低估了它的重要性。
伦尼(Lenny)
这非常有趣。我喜欢你必须想办法把这些都编码进去。
舍温·吴(Sherwin Wu)
是的,户型图。关于户型图我有很多故事。它们没有数字化。所以在凤凰城和达拉斯,有一小部分人拥有所有这些房子的纸质户型图。是的,OpenDoor 时代有很多有趣的故事。
伦尼(Lenny)
好的,舍温,非常感谢你来做客。这太棒了。人们在哪里可以找到你?听众如何联系到你?
舍温·吴(Sherwin Wu)
是的,我在 Twitter 或 X 上。用户名是 @sherwinwu。基本上主要发关于 OpenAI、API 以及我们发布的一些产品的推文。另外,人们联系我的方式,对我有帮助的是,我喜欢听人们正在构建的东西。所以如果你正在做创业公司,如果你在捣鼓一个想法,欢迎直接在 X 上联系我。我很乐意听听你在构建什么,并了解 OpenAI 如何能帮助支持你。
伦尼(Lenny)
太棒了。舍温,非常感谢你来到这里。
舍温·吴(Sherwin Wu)
谢谢你,Lenny。再见,大家。
伦尼(Lenny)
非常感谢你的收听。如果你觉得这期内容有价值,你可以在 Apple Podcasts、Spotify 或你最喜欢的播客应用上订阅本节目。另外,如果方便的话,请考虑给我们打分或留下评论,这确实有助于其他听众发现这个播客。你可以在 Lennyspodcast.com 找到所有过去的剧集或了解更多关于本节目的信息。下期再见。
热门跟贴