在硅谷的 AI 淘金热中,Surge AI 是一个特殊的“异类”。
这家成立四年的数据服务公司,很久都没拿投资人一分钱,也没做过大量营销。它靠着六七十人的团队服务 OpenAI、Anthropic 等顶尖 AI 企业,并在 2024 年收入超过 10 亿美元。
*Surge AI 的业务包括标注和RL环境构建等。它对数据标注专家的要求非常高,有时会招募创业公司CEO、风险投资合伙人标注,时薪报酬达500-1000美金。
因为远离 VC 圈,很多人觉得这家 AI 公司就像凭空出现在 10 亿美金营收这一梯队。但或许由于竞争愈发激烈,有消息称 Surge 正在进行一轮高达 10 亿美元的融资,估值或超 250 亿。
虽然这家公司是否会接受资本洗礼尚未可知,但它的 CEO Edwin Chen 在最新访谈中,火力全开地批判了硅谷创业的炒作现状,还把 AI 领域自己看不惯的“风气”喷了个遍。
他的部分"金句"如下:
AI 时代会出现效率更疯狂的公司。之前在大公司工作时,我就觉得公司裁掉 90% 的人还会发展得更快,因为最优秀的人不会受到更多干扰。
更少的员工意味着需要更少的资本,不需要融资的公司也将更高频地出现。所以在那些擅长推销和炒作的创始人之外,人们会看到那些在技术和产品方面真正出色的创始人。
因为我们不玩硅谷那套融资—PR曝光—继续融资的套路,这逼着 Surge 只能打磨自己的产品。这样做的最大好处是,Surge的客户是那些真正理解数据并真正关心数据质量的人。这些懂行的客户给了 Surge 反馈,优化产品。
硅谷现在的创业剧本是:每两周转型一次寻找产品市场契合度,追逐增长、追逐参与度,使用各种“黑暗手段”疯狂招聘进行闪电式扩张。但我一直反对这些。
我的建议是:不要随意转型,不要盲目扩张,不要只为了简历好看就雇佣斯坦福毕业生。要建立那个只有你能做的东西,那个离了你的独特洞察和专业知识就不复存在的东西。
关于模型。现在很多模型都在刷基准测试,或者在大模型竞技场刷分。但大模型竞技场由路人票选,所以一个模型甚至可以胡说八道甚至产生幻觉,只要用了疯狂的表情符号、加粗字体、Markdown 标题这些肤浅的装饰,就能抓住用户的注意力,取得好名次。
为提升用户参与度,AI 公司用了很多套路。比如 ChatGPT 那些令人作呕的阿谀奉承——哦,你是绝对正确的,多么棒的问题啊。吸引用户最简单的方法,就是不断吹捧他们。
所以,现在人们在教模型去追逐“多巴胺”,而不是追求“真理”。这是一种扭曲的激励,甚至现在得分最高的模型往往是最差的,或者根本上是失败的。
总之,Edwin Chen 认为现在的 AI 和创业,至少在某种程度上走入歧途。
以下是经整理的访谈全文:
VC媒体创业者抱团炒作,AI和创业走入歧途
Lenny:今天的嘉宾是 Edwin Chen,Surge AI 的创始人兼 CEO。他们是领先的 AI 数据公司,为每一个前沿 AI 实验室的训练提供动力。
他们也是有史以来最快达到 10 亿美元营收的公司,从未筹集过一美元的风险投资,在成立四年内用不到 100 人就做到了这个收入,而且从第一天起就是盈利的。
Edwin,你们团队不大,能独立取得这样的营收非常了不起。你们证明因为AI,极小的团队也能创造大财富。我很好奇,你认为这种情况会越来越多地发生吗?
Edwin:是的,我们去年以不到 100 人的规模实现了超过 10 亿美元的营收。而且我认为还会看到比我们效率更疯狂的公司。比如未来几年内出现人均营收 1 亿美元的公司。AI 只会变得越来越好,让事情更有效率。
我以前在很多大型科技公司工作过,我总是觉得可以裁掉 90% 的人,还会发展得更快,因为最优秀的人就不会有那么多干扰。所以当我们创办 Surge 时,就想用完全不同的方式来建立它,用一个超级小、超级精英的团队。很疯狂的是,我们竟然成功了。
所以我认为有两件事正在发生碰撞。第一,人们开始意识到不需要建立庞大的组织也能赢。第二,确实是 AI 带来了这些效率提升。
让我兴奋的是公司的类型也将发生变化。不仅仅是规模变小,我们还将看到根本不同公司出现。你想一想,更少的员工意味着需要更少的资本。更少的资本意味着你不需要融资。
所以,在那些擅长推销和炒作的创始人之外,你还会看到那些在技术和产品方面真正出色的创始人。
在那些为营收和风险 VC 想看的东西而优化产品之外,你也会看到由这些小的团队构建的更有趣的产品。人们在构建他们真正关心的东西,实现真正的创新。
所以我实际上真的非常希望硅谷的创业圈能再次成为黑客(Hackers)的乐园。
Lenny:你们以一种非常反传统的方式做了很多事情。其中之一就是不在 LinkedIn 上发那些病毒式的帖子,不在 Twitter 上不断推销 Surge。我想大多数人在最近之前甚至都没听说过 Surge,然后你们突然冒出来。
Edwin:我从来不想玩硅谷那套游戏。我一直觉得那很荒谬。
你小时候的梦想是什么?是从零开始建立一家公司,每天沉浸在代码和产品中?还是向 VC 解释你的所有决定,然后陷入这个巨大的公关和融资的循环当中?
这确实让事情变得更困难了,因为当你融资时,你自然而然地成为这个硅谷工业综合体的一部分,VC 会在推特上谈论你,你会上 TechCrunch 的头条,你会因为在这个巨大的估值下融资被所有报纸报道。
不走这个套路,也会让事情变得更难,因为我们要想成功的唯一途径就是建立一个好十倍的产品,依靠研究人员的口碑。但我认为这也意味着我们的客户是那些真正理解数据并真正关心数据的人。
早期客户与我们的理念高度一致非常重要,他们是真正关心高质量的数据,真正理解这些数据如何让他们的 AI 模型变得更好的人。是他们在帮助我们,给我们反馈,所以彼此的关系非常紧密。这些人购买我们的产品,是因为他们知道它有多么不同,它能帮助他们,而不是因为他们在 TechCrunch 的头条上看到了我们的产品。
Lenny:你们的创业故事非常了不起。不过对于那些不知道 Surge 是做什么的人,Edwin,你会怎么快速解释自己?
Edwin:Surge 本质上是一家数据公司,在教 AI 模型什么是好的,什么是坏的,我们使用人类数据来训练它们,有很多不同的产品,比如 SFT、RLHF评分、RL 环境等等。我们也衡量大模型的进步程度。
*Surge AI 的产品
Lenny:你一直强调数据的质量。那么,创造更高质量的数据到底需要什么?你们的做法有什么不同?
Edwin:我认为这个领域的大多数人根本没懂什么是“质量”。他们以为只要靠“人海战术”就能堆出好数据,这完全是大错特错。
举个例子。假设你要训练模型写一首关于月亮的八行诗。什么是“高质量”?如果思考得不够深,标准可能仅仅是:它是诗吗?有八行吗?包含“月亮”这个词吗?只要满足这些硬性指标,就打钩通过,认为这是好诗。
但这绝不是我们想要的。我们追求的是诺贝尔奖级别的作品。它独特吗?意象是否微妙?是否能让你惊叹并触动心弦?能否让人领悟月光的本质?能否引发情感共鸣和深思?
这才是我们眼中的高质量。它可能是一首描绘水上月光的俳句,讲究内部押韵和格律。描写月亮有一千种方式,每一种都应提供关于语言、意象和人类表达的独特见解。
定义这种“质量”很难,衡量它更难。它是主观、复杂且丰富的,门槛极高。因此,我们需要构建全套技术来量化它。我们会从每位数据标注专家、每个项目、每项任务中收集成千上万个信号。
比如,我们能区分谁更擅长写诗、散文还是技术文档。我们不仅收集背景和专长,还追踪实际写作中的表现。利用这些信号,我们能判断这个人是否适合特定项目,以及他们的工作是否真正提升了模型表现。
Lenny:很有意思。听起来你们在特定垂直领域对“质量”有着更深刻的理解。这是否意味着你们的机制是:雇佣在诗歌等方面极具天赋的人,再辅以他们编写的评估标准?
Edwin:我们的运作机制是这样的:我们收集标注专家们在平台上所有操作的成千上万个信号——从击键特征到答题速度。我们结合评论、黄金标准(Golden Standard),并训练自己的模型来评估输出,看他是否提升了最终模型的性能。
我们要找的不是只会写高中水平诗歌的人,也不是机械地勾选要求、遵循指令的人,而是那些能写出真正打动人心作品的人。
* Surge AI 的专家网络
Lenny:难怪你们发展这么快,这个领域的市场空间太大,Anthropic 仅仅通过更好的数据就取得了巨大的胜利。AI 虽然看似是二进制的计算机产物,但“品味”和人类的判断力依然是成功的关键因素。
Edwin:完全正确。回到刚才的例子,如果你问某些公司什么是好诗,他们只会机械地核对指令清单。但在我看来,那不叫好诗。那些更有品味和修养的前沿实验室意识到,质量不能简化为僵硬的复选框,他们会考量那些隐含的、微妙的特质,这正是他们脱颖而出的原因。
Lenny:你提到了Benchmarks。这是很多人担心的问题,感觉现在每个模型在所有 STEM 领域都超越了人类,但普通用户并不觉得它们变聪明了。你怎么看基准测试的可信度?它们与 AI 的实际进步有多大相关性?
Edwin:我完全不信基准测试,原因有二。
第一,很多人甚至包括社区内的研究人员,没意识到基准测试本身往往就有问题。它们可能包含错误答案,或者充斥着混乱的数据。虽然大家对热门榜单有所警惕,但绝大多数基准测试的缺陷都被忽视了。
第二,基准测试通常有明确的客观答案,这让模型很容易针对性地刷分。但这与现实世界的混乱和模糊性截然不同。
这就好比模型能拿国际数学奥林匹克金牌,却解析不好一个 PDF 文件。虽然 IMO 金牌对人类很难,但它具有客观标准,而解析 PDF 往往涉及模糊性。
对于前沿实验室来说,在客观标准上“刷分”比解决现实中混乱、模糊的问题要容易得多。所以,我认为基准测试分数与实际体验之间缺乏直接的相关性。
Lenny:你把“达到基准测试分数”描述成一种营销手段,这很有趣。推出 Gemini 3 时,就像是在说:“酷,我们在所有基准测试上都是第一名。” 事实真的是这样吗?他们只是在训练模型去擅长这些特定的考试吗?
Edwin:是的,原因通常有两方面。
一方面,确实存在“作弊”嫌疑。有时是基准测试的数据意外泄露进了训练集,或者前沿实验室会专门调整评估方式,比如微调Prompt,或者多次运行模型取最佳值,以此来利用规则漏洞。
另一方面,当你针对基准测试而非现实世界进行优化时,你自然而然地就在这些测试上“刷分”了。这本质上就是另一种形式的游戏。
Lenny:既然如此,我们该如何判断自己是否真在向 AGI迈进?你如何衡量真正的进步?
Edwin:我们真正看重的是“人类评估”。我们会让真人去和模型对话。
举个例子,如果你是一位诺贝尔物理学奖得主,你会和模型探讨你研究领域的最前沿话题;如果你是一位老师,你会尝试用模型制定教案;如果你是大厂程序员,你会用它解决日常代码问题。我们看重的是它能在多大程度上真正帮助用户。
我们的标注专家(Surgers)都是各自领域的顶尖人才。他们不仅仅给回应,还会深入地审查内容。他们会评估代码是否运行,反复核查物理方程。他们关注的是准确性、指令遵循能力,以及那些普通用户在简单的“二选一”弹窗中注意不到的细节。
普通用户可能只会凭感觉选一个看起来更“炫酷”的回答,但我们的专家会从多个维度进行深度评估。我认为这比那些基准测试或随机的在线 A/B 测试要靠谱得多。
Lenny:我很喜欢这种“人类始终处于核心地位”的感觉。
Edwin:是的。根据定义,只要我们还没达到 AGI,模型就还有东西需要向人类学习。所以我认为那个“不需要人类”的时刻不会很快到来。
Lenny:你有一个很犀利的观点:你认为很多实验室正把 AGI 推向错误的方向。这基于你在 Twitter、Google 和 Facebook 的工作经历,能展开谈谈吗?
Edwin:我担心的是,我们本该建立能真正推动人类进步的 AI,比如治愈癌症、解决贫困、理解宇宙,但我们现在却在优化“AI 垃圾”。我们基本上是在教模型去追逐“多巴胺”,而不是追求“真理”。
这与我们刚才讨论的基准测试有关。举几个例子:
现在的行业正被一些糟糕的排行榜左右,比如 LM Arena(大模型竞技场)。这是一个流行的在线榜单,由世界各地的路人投票选出哪个 AI 回答更好。但问题在于,这些用户不会仔细阅读或核查事实。他们只浏览两秒钟,然后选那个看起来最“炫酷”的。
所以,一个模型可以完全在胡说八道,甚至产生幻觉,但只要它用了疯狂的表情符号、加粗字体、Markdown 标题这些肤浅的装饰,它看起来就很厉害,能以此抓住你的注意力。
LM Arena 的用户吃这一套。这实际上是在迫使你优化模型,去迎合那些爱看“八卦小报”的人的口味。
我们在自己的数据中也证实了这一点:在 LM Arena 上“刷分”的最简单方法就是滥用加粗字体、把表情符号数量翻倍、把回复长度拉长两倍——哪怕模型在胡说八道。
问题在于,前沿实验室不得不关注这些公关指标。当销售团队去谈企业大单时,客户会说:“哦,可是你们在 LM Arena 上只排第五,我为什么要买?”
这导致了一种扭曲的激励。
研究人员告诉我们:“我今年想升职,唯一的途径就是把榜单排名刷上去,哪怕我知道这会让模型在准确性和指令遵循上变差。”所以我认为这些负面激励正在把 AGI 引向歧途。
我也很担心这种为了“参与度”(Engagement)而优化 AI 的趋势。我在社交媒体公司工作过,每次我们针对参与度进行优化,结果都很糟糕:信息流里充斥着点击诱饵、比基尼照片、大脚怪传闻和可怕的皮肤病图片。
我担心同样的逻辑正在 AI 领域重演。想想 ChatGPT那些令人作呕的阿谀奉承吧——“哦,你绝对是正确的,多么棒的问题啊!”吸引用户最简单的方法,就是不断吹捧他们。
现在的模型不断告诉你“你是个天才”,它们会迎合你的妄想,甚至顺着你的阴谋论说下去。它们会把你拉进信息的“兔子洞”里,因为硅谷的逻辑就是最大化用户的停留时间,增加对话轮次。
所以,公司花费大量时间来“黑”这些排行榜和基准测试,分数确实上去了,但这掩盖了一个事实:得分最高的模型往往是最差的,甚至是根本上失败的。我真的非常担心,这些负面激励正在将 AGI 推向完全错误的方向。
Lenny:所以 AGI 的发展正在被这些实验室拖慢,因为他们关注了错误的目标函数、错误的基准测试和评估指标。
Edwin:没错,正是如此。
Lenny:我知道你可能不便偏袒谁,毕竟你们和所有实验室都有合作。但有没有哪家做得更好,或者可能意识到了这是错误的方向?
Edwin:我必须说,我对 Anthropic 印象非常深刻。我觉得 Anthropic 采取了一种非常有原则的立场。关于他们关心什么、不关心什么,以及希望模型如何表现,他们的方式让我感觉更有原则性。
Lenny:除了追逐基准测试和过度关注参与度之外,你还看到实验室在犯哪些可能拖慢进度或导致方向错误的大错误吗?
Edwin:我觉得确实存在一个问题:他们究竟在构建什么产品?这些产品本身是对人类有益还是有害?我经常思考 Sora,以及它会带来什么后果。
我们可以观察哪些公司会开发像 Sora 这样的产品,哪些不会。这也许揭示了这些公司到底想建立什么样的 AI 模型,以及他们想要实现什么样的未来。
Lenny:这里的“最强反驳”(Steel man argument)可能是:“嘿,这很有趣,人们喜欢它。它能产生收入来支持研发,建立更好的模型。而且它以一种有趣的方式训练数据,这也是有价值的……”
Edwin:是的,如果你完全不在乎路径,只在乎结果,那确实可以这么说。就像我之前那个小报的比喻:你会为了资助一家正经报社而去卖八卦小报吗?
当然,如果你不在乎手段,只要能达成目标就行。但如果在这个过程中产生了负面后果,损害了你想实现的长期愿景,或者让你从更重要的事情上分心,那就得不偿失了。所以,我认为你选择的路径同样重要。
Lenny:你身处硅谷提到如果不走拿投资这条路,其实可能更容易建立伟大的公司。
Edwin:是的,我一直很讨厌硅谷的很多陈词滥调。
标准的剧本是:每两周转型(Pivot)一次寻找产品市场契合度;追逐增长、追逐参与度,使用各种“黑暗模式”;通过疯狂招聘来进行闪电式扩张。但我一直反对这些。
我的建议是:不要随意转型,不要盲目扩张,不要只为了简历好看就雇佣斯坦福毕业生。只去建立那个只有你能建立的东西,那个离了你的独特洞察和专业知识就不复存在的东西。
你现在到处都能看到这种“照本宣科”的公司。有些创始人在 2020 年做加密货币,2022 年转做 NFT,现在摇身一变又成了 AI 公司。这里没有连贯性,没有使命感,他们只是在追逐估值。
我一直很讨厌这点。硅谷喜欢嘲笑华尔街只认钱,但老实说,大多数硅谷人也在追逐同样的东西。
所以我们从第一天起就专注于我们的使命:推动高质量、复杂数据的前沿。
我一直对此很执着,因为我对初创公司有一种浪漫的理想。创业应该是关于承担巨大风险去建立你真正相信的东西。如果你不断转型,你其实不是在承担风险,你只是想赚快钱。
如果你因为市场还没准备好而失败,我觉得这甚至更好。至少你尝试了一些深刻、新颖和困难的事情,而不是沦为另一家“大模型套壳”公司。
硅谷现在业有很多人厌倦了这些投机取巧,他们想和真正在乎的人一起做真正重要的事情。
Lenny:我正在和 Terence Rohan(一位我很喜欢的 VC)合写一篇文章。我们采访了五位在那些代际公司早期加入的员工——比如在 OpenAI 还没红之前加入,在 Stripe 还没出名之前加入。我们在寻找一种模式:这些人是如何先于其他人发现这些伟大公司的?
你的描述与我们的发现完全一致,那就是野心。他们拥有想要实现的狂野野心,而不只是像你说的,四处张望寻找所谓的“产品市场契合度”。
Edwin:对,绝对是这样。
你必须拥有巨大的野心,必须坚信你的想法能改变世界,并且愿意加倍下注,不惜一切代价去实现它。
关于AGI:选正确的目标函数并为它做优化
Lenny:稍微换个话题。Richard Sutton 提出了“苦涩的教训”(The Bitter Lesson)。他在一次对话中提到,大语言模型几乎是一条死胡同,认为我们会在 LLM 上停滞不前,因为那是它们学习的局限。你怎么看?你认为 LLM 能带我们通向 AGI 甚至更远吗?还是你认为需要有新的东西或重大突破才能到达那里吗?
Edwin:我属于后者,我确实相信需要一些新东西。
我的思考方式或许更偏“生物学”。我相信,就像人类有一百万种不同的学习方式一样,我们需要建立能够模仿所有这些方式的模型。
也许分布会有所不同,因为人类的侧重点不同,但我们希望能够模仿人类的学习能力,确保有算法和数据让模型以同样的方式学习。
仅就 LLM 这种单一的学习方式而言,我认为要想复刻人类多样的学习能力,还需要新的突破。
Lenny:这与强化学习密切相关,也是你非常热衷的领域。在“后训练”阶段,强化学习似乎正变得越来越重要。能否给大家解释一下什么是强化学习和“强化学习环境”?为什么它们在未来会如此关键?
Edwin:简单来说,强化学习就是训练模型去达成某种奖励目标。让我解释一下什么是“RL 环境”。
RL 环境本质上是对现实世界的模拟。你可以把它想象成构建一个细节丰满的视频游戏宇宙,每个角色都有背景故事,每个企业都有可调用的工具和数据,各种实体在其中相互作用。
例如,我们可能会构建一个初创公司的虚拟世界,里面有真实的 Gmail 邮件、Slack 对话线程、Jira 工单、GitHub 的 PR 请求,甚至还有完整的代码库。
然后,突发状况发生了:AWS 挂了,Slack 也崩了。这时候,模型该怎么做?它需要自己想办法解决。我们会给模型在这个环境中布置任务,设计挑战,观察它的表现。根据它做得好坏,我们会给予相应的奖励或惩罚。
有趣的是,这些环境揭示了一个事实:模型在处理现实世界的端到端任务时,表现往往很弱。
虽然它们在孤立的基准测试上看起来很聪明,比如擅长单步调用工具、遵循简单指令,但一旦被扔进这些混乱的模拟世界,面对令人困惑的 Slack 消息、陌生的工具,需要执行一系列正确的操作、修改数据库,并在长达 50 步的交互中保持逻辑连贯时,它们就会以各种离谱的方式崩溃。
这与它们之前所处的那些学术性的、单步任务环境截然不同。我认为这些 RL 环境将成为模型进化的真正游乐场。因为这是对现实世界的模拟,相比那些人为设计的简单环境,模型有望在这里学会处理真正的任务。
Lenny:我试图想象这个场景:本质上它就像一个虚拟机,里面有浏览器、电子表格,或者网页,如果你是 Agent,你的工作就是确保网站在线。 突然网站挂了,目标函数就是“找出原因”。是这个意思吗?
Edwin:对,目标函数可能是“找出原因并修复它”。具体来说,可能是通过一系列单元测试,或者是写一份复盘文档,内容必须准确描述发生的事情。我们会根据它的完成情况给予奖励。这就是我们教导模型去实现目标的方式。
就像以前有过 SFT 和 RLHF,后来有了评分标准(Rubrics)和验证器(Verifiers)。RL 是下一个阶段,并不是说旧方法过时了,而是这是一种新的学习形式,补充了模型需要掌握的新技能。
Lenny:所以在这种情况下,不再是物理学博士坐在那儿跟模型对话、纠正它、写评分标准,而是现在的专家在设计这个 RL 环境。
这让我想起另一个例子,比如金融分析师。以前可能是写评估标准,现在则是:“这是 Excel 表格,你的目标是算出我们的损益表。” 专家变成了环境的设计者。
Edwin:完全正确。那位金融分析师可能会创建一个电子表格,并设计模型需要调用的工具来辅助填表。
比如,模型可能需要访问彭博终端,它得学会如何使用;它需要用计算器,得学会怎么算。它拥有这些工具的使用权。然后奖励机制可能是:会下载那个表格,检查 B22 单元格里的损益数字对不对,或者第二个标签页的信息是否准确。
Lenny:有趣的是,这最终变得越来越像人类的学习方式。这也说得通,毕竟神经网络、深度学习本身就是在模仿人类大脑的运作,让它们变聪明就是让它们的学习方式越来越接近人类。
Edwin:是的。也许最终目标就是把你扔进环境里,看你如何进化。但在这个进化过程中,包含了很多不同的子学习机制。
Lenny:这也是我们在 RL 环境中做的事情。你提到设计这些环境时,“轨迹”(Trajectories)非常重要,不仅仅是关注“这是目标,这是终点”,而是过程中的每一步。能谈谈什么是轨迹,以及为什么它这么重要吗?
Edwin:人们往往忽略一点:有时即使模型得出了正确答案,它的过程也可能是完全错误的。
它可能有各种中间轨迹——也许它尝试了 50 次都失败了,最后只是随机蒙对了数字;或者它用了一种极低效的方式;甚至它可能是在 Reward-hack 来骗取奖励。
所以关注轨迹非常重要。而且有些轨迹可能非常长。如果你只检查最终答案,就会丢失大量关于模型中间思考过程的信息。比如,有时你希望模型通过反思来得出答案,有时你希望它能一次搞定。如果你忽略了这些过程,就等于错失了教导模型正确思考的机会。
Lenny:从“后训练”(Post-training)开始回顾,你认为模型进步最大的几个关键节点是什么?比如 Evals(评估)处于什么位置?RL 环境又处于什么位置?这仅仅是目前的最新进展吗?
Edwin:最初,模型进行后训练的方式纯粹是依赖SFT监督微调。我又得用人类做类比了:SFT 就像是徒弟模仿大师,照着葫芦画瓢。后来,RLHF成了主流。这好比你写了 5 篇文章,有人告诉你哪篇写得最好。而最近,评分标准(Rubrics)和验证器(Verifiers)变得非常重要。这就不仅仅是打分了,而是获得详细的反馈,告诉你具体哪里做错了,以此来学习。
Lenny:这些其实就是评估(Evals),换了个说法而已。
Edwin:对。我认为“评估”通常包含两层含义。一种用于训练:你评估模型做得好不好,做好了就给奖励。另一种用于衡量进展:比如我有 5 个候选模型版本,想挑最好的发布。我就需要在这 5 个版本上运行所有评估测试,来决定哪个胜出。现在,RL 环境成了新的热点。
Lenny:懂了。这就像是一场商业模式的进化之旅,总有新东西出现。一开始大家说“好吧,这个我们已经玩得很溜了,但这只是入场券”。现在我们需要全新的东西,比如建立虚拟机和各种不同的用例。
Edwin:没错。就像过去有不同的学习方式一样,新方法的出现并不意味着旧方法过时了。它是另一种形式的学习,补充了之前的手段。这是模型需要掌握的新技能。
Lenny:除了这些,你还听到了什么新趋势吗?比如,“搞定这个之后,下一个大事件是什么?”
Edwin:我觉得确实存在一个核心问题:他们究竟在构建什么产品?这些产品本身对人类是有益还是有害的?比如我经常思考 Sora,以及它会带来什么。观察哪些公司会去建立 Sora,哪些不会,这本身就很有意思。
Lenny:我们已经聊了很多领域。在结束前,关于硅谷、融资或 AI,你还有什么想分享的吗?
Edwin:我想用这个来结束:我骨子里是个科学家。我一直以为我会成为一名数学或计算机教授,去致力于理解宇宙、语言和交流的本质。我曾有个疯狂的梦想:如果外星人造访地球,人类需要破译沟通方式,我希望成为被政府召集的那个人,用数学、计算机和语言学来破解难题。
即使在今天,我最喜欢做的事依然是每当新模型发布时,深入研究它。我会去捣鼓它,运行评估,对比它的进步和退步,然后给客户写一份深度分析。大家常以为那是数据科学团队做的,但其实就是我写的。
我可以整天做这个,但开一整天会很难受。我不擅长销售,也不擅长做人们期望 CEO 做的那种典型工作。我喜欢写分析,喜欢和研究团队探讨发现。有时我会和团队打电话聊到凌晨三点,讨论如何调整模型。我很高兴自己还没脱离数据和科学的一线。
这也正是我想让 Surge 在 AI 未来中扮演的角色。我们拥有关于数据、语言和质量的独特视角,知道如何衡量它们,并确保一切在正确的轨道上。
相比典型初创公司,Surge 更像是一个研究实验室。我们受到的负面干扰很少,关注好奇心、长期价值和严谨性,而不是季度财报或董事会 PPT 上好不好看。
我的目标是利用这种独特性,确保我们塑造 AI 的方式长期对人类这个物种真正有益。
Lenny:我现在意识到,像你们这样的公司对 AI 的走向有着巨大的影响力。大家通常盯着 OpenAI、Anthropic 这些公司,以为只有他们在定义 AI,但实际上在帮助实验室发现差距、指引方向上,你们的影响力巨大。顺着这个话题,我知道你对于“这对人类为什么重要”有很强的想法,能谈谈吗?
Edwin:这可能会有点哲学,请耐心听我说。
最直接的层面是:我们训练和评估 AI。但更深层的使命是帮助客户思考他们梦想中的“目标函数”。也就是,你到底希望你的模型成为什么样?
一旦确定了目标,我们会帮助训练模型去接近那颗“北极星”,并帮助衡量它。但这很难,因为目标函数通常极其丰富且复杂。
打个比方,这就好比问一个孩子:“你想通过什么测试?”简单的版本是:通过高中考试,或者 SAT 考高分,写篇漂亮的论文。
但复杂的版本是:“你想成长为什么样的人?” 你希望无论做什么都快乐吗?还是只想去名校、在经济上成功?
如果你选前者,你怎么衡量“快乐”?怎么衡量“经济成功”?这比衡量 SAT 分数难多了。而我们正在做的,就是帮助客户找到并衡量他们梦想中的“北极星”。
回到刚才的例子,如果你让模型写 50 封邮件,是仅仅让它机械地写完,还是希望它能意识到“不,写到这里已经足够完美了,去忙别的吧”?
更宏大的问题是:我们是否在构建真正能让人类进步的系统?
所以,选择正确的目标函数,并确保我们是在为此优化,而不是为了那些简单的替代指标优化,这对我们的未来至关重要。
热门跟贴