用声音,听见真格。
「此话当真」是一档泛商业类播客,我们希望搭建这样一个分享和交流的平台,让每一个对商业、科技、创投充满好奇的人都能在这里有所收获。每期播客将会由不同的真格投资人担任主持,和各领域的领军人物一起带大家深入了解科技趋势,以及创新技术的影响力。交流科技热点,我们只想给你最专业的解读。
当然,我们希望这不仅仅是一个播客,更是一次创业的探索。真格,你的创业第一站!我们期待与你相遇,一同发现新的可能。
回顾 2024 年,AI Coding 无疑是过去一年里最炙手可热的领域之一,Cursor、Poolside、Cognition、Magic、Codeium、Replit 等多家独角兽的出现,都在反复验证着这一市场需求。
从更长远的时间尺度来看,Agent 是 AI 落地人们日常生活的最小可能单位。在过去不到两个月的时间里,Coding Agent 已经完成在产品形态上的二连跳,从能够上下文预测的 IDE 编程助手 Cursor,到实现支持多轮对话的 Replit,用户得到的「交付物」已不只是基于搜索关键词的网页,而是根据自身需求生成的软件。12 月 11 日,Cognition AI 正式对公上线「AI 程序员」Devin,不仅能为用户提供建议、自动执行指令任务,更能独立完成对整个软件项目的开发,再次打开了世人对 Coding Agent 全新的想象空间。
12 月 21 日,在 OpenAI 连续 12 天发布会的最后一天,o3 模型重磅登场。在由真实世界软件任务组成的 SWE-Bench Verified 基准测试中,o3 模型获得了 71.7% 的准确率,比 o1 模型高出 20% 以上;在评估 AI 类人推理能力的 ARC-AGI 测试中,则取得了 87.5% 的分数,首次突破人类水平阈值(85%)。OpenAI 首席执行官山姆·奥特曼在发布会上表示,「我们认为这是AI下一阶段的开始。o3 能够完成许多复杂且需要深度推理的任务,尤其在编程和数学领域表现令人难以置信。」
展望 2025 年,AI 领域还有更多值得思考的问题。底层大模型突破后,AI Agent 还会以怎样的形态出现?Coding Agent 产品的核心能力与技术壁垒在哪里?未来的组织里又需要怎样的新员工?下一代的「互联网」会以怎样的形式到来?在面向未来的开放式想象中,Coding Agent 和以 RL(强化学习)为新范式的 o3 系列,都会是所有讨论里无可回避的焦点。
眼下,陈旧的想象已然无法满足技术的野心。或许能够实现 end-to-end 的 Coding Agent,能做成的事情已远不止 Coding 本身。以改变人们的工作方式为起点,Agent 是人们迈向 AGI 的最小单位,而每次迭代带来的全新范式,都在反复提醒人们这样一个事实 —— 未来,正在加速到来。
内容纲要
为什么说 Devin 展示了「工作」的 scaling law?
最早引领 Coding Agent 潮流的 Replit Agent,以及开源 Devin 项目 - Openhands, 在设计中有哪些关键决策?
Coding 领域未来是 Devin 形态赢家通吃吗?
底层模型能力之外,Coding Agent 应用公司的核心能力和壁垒是什么?
Coding Agent 对未来的社会组织和工作形态,会有哪些深远影响?
如何看待 o3 超越大部分人类的能力?未来的发展空间在哪里?
未来,正在加速到来。
主持人
谢岩 Monica:真格基金投资副总裁
联合主持人 Peak:真格基金 EIR
嘉宾
戴雨森:真格基金管理合伙人,聚美优品联合创始人
李珎:Replit Agent 核心成员,Replit 资深工程师
王星尧:Allhands Al (FIFIE OpenHands) 联合创始人,首席人工智能官,UIUC PhD
惠彬原:阿里巴巴通义实验室科学家
时间轴
Coding Agent 的发展演进
01:56 嘉宾自我介绍与最近体验到有意思的项目
13:36 Coding Agent 的四个代际与三次进化
16:53 Devin 引发的全新想象:工作的 Scaling Law
两家 Coding Agent 公司的创业故事
20:47 Replit Agent的创业历程及关键节点
25:50 「优秀创业者的产能会被无限放大。」
35:59 几次技术更新:Integration、Edit 和 UI
38:06 未来不同 Coding Agent 产品形态会复合吗?
37:30 OpenHands 不同寻常的诞生
47:48 「要用有限的空间,做无限的事情。」
52:25 开源:用 Coding 推动一种技术民主化
1:02:40 Coding 产品的长期竞争力是什么?
o3 发布:突破、局限与趋势
01:07:20 AGI 的未来已经近在眼前
01:18:10 解决真实世界的复杂问题,o3 还需做什么?
01:22:23 SWE-bench 被「刷爆」,下一个 Benchmark 是什么?
未来,如何做好一个 Coding Agent?
01:34:27 Coding Agent 重要时点回顾
01:39:23 未来的组织形态,理想工程师的画像是?
01:56:11 如何提高模型多步骤任务的能力?
02:05:54 Agent 普及后,底层技术栈的新机会
02:11:30 投资人视角下的创业机遇
02:23:27 快问快答
Cursor:https://www.cursor.com/
Cognition labs/Devin:https://app.devin.ai/
Replit:https://replit.com/
Replit Agent:https://docs.replit.com/replitai/agent/
OpenHands:
官网:http://github.com/
论文: http://arxiv.org/
VisualWebArena:http://arxiv.org/
TheAgentCompany:
官网 http://the-agent-company.com/
论文 http://arxiv.org/
Computer use by Anthropic:https://www.anthropic.com/news/3-5-models-and-computer-use/
你可以通过小宇宙、苹果 Podcast 、喜马拉雅收听我们。如果你对节目有任何的建议与期待,欢迎在留言区互动~
如果你有任何的创业想法或合作想法,欢迎发邮件到 media@zhenfund.com !
热门跟贴