用声音,听见真格。

「此话当真」是一档泛商业类播客,我们希望搭建这样一个分享和交流的平台,让每一个对商业、科技、创投充满好奇的人都能在这里有所收获。每期播客将会由不同的真格投资人担任主持,和各领域的领军人物一起带大家深入了解科技趋势,以及创新技术的影响力。交流科技热点,我们只想给你最专业的解读。

当然,我们希望这不仅仅是一个播客,更是一次创业的探索。真格,你的创业第一站!我们期待与你相遇,一同发现新的可能。

回顾 2024 年,AI Coding 无疑是过去一年里最炙手可热的领域之一,Cursor、Poolside、Cognition、Magic、Codeium、Replit 等多家独角兽的出现,都在反复验证着这一市场需求。

从更长远的时间尺度来看,Agent 是 AI 落地人们日常生活的最小可能单位。在过去不到两个月的时间里,Coding Agent 已经完成在产品形态上的二连跳,从能够上下文预测的 IDE 编程助手 Cursor,到实现支持多轮对话的 Replit,用户得到的「交付物」已不只是基于搜索关键词的网页,而是根据自身需求生成的软件。12 月 11 日,Cognition AI 正式对公上线「AI 程序员」Devin,不仅能为用户提供建议、自动执行指令任务,更能独立完成对整个软件项目的开发,再次打开了世人对 Coding Agent 全新的想象空间。

12 月 21 日,在 OpenAI 连续 12 天发布会的最后一天,o3 模型重磅登场。在由真实世界软件任务组成的 SWE-Bench Verified 基准测试中,o3 模型获得了 71.7% 的准确率,比 o1 模型高出 20% 以上;在评估 AI 类人推理能力的 ARC-AGI 测试中,则取得了 87.5% 的分数,首次突破人类水平阈值(85%)。OpenAI 首席执行官山姆·奥特曼在发布会上表示,「我们认为这是AI下一阶段的开始。o3 能够完成许多复杂且需要深度推理的任务,尤其在编程和数学领域表现令人难以置信。」

展望 2025 年,AI 领域还有更多值得思考的问题。底层大模型突破后,AI Agent 还会以怎样的形态出现?Coding Agent 产品的核心能力与技术壁垒在哪里?未来的组织里又需要怎样的新员工?下一代的「互联网」会以怎样的形式到来?在面向未来的开放式想象中,Coding Agent 和以 RL(强化学习)为新范式的 o3 系列,都会是所有讨论里无可回避的焦点。

眼下,陈旧的想象已然无法满足技术的野心。或许能够实现 end-to-end 的 Coding Agent,能做成的事情已远不止 Coding 本身。以改变人们的工作方式为起点,Agent 是人们迈向 AGI 的最小单位,而每次迭代带来的全新范式,都在反复提醒人们这样一个事实 —— 未来,正在加速到来。

打开网易新闻 查看精彩图片

内容纲要

  • 为什么说 Devin 展示了「工作」的 scaling law?

  • 最早引领 Coding Agent 潮流的 Replit Agent,以及开源 Devin 项目 - Openhands, 在设计中有哪些关键决策?

  • Coding 领域未来是 Devin 形态赢家通吃吗?

  • 底层模型能力之外,Coding Agent 应用公司的核心能力和壁垒是什么?

  • Coding Agent 对未来的社会组织和工作形态,会有哪些深远影响?

  • 如何看待 o3 超越大部分人类的能力?未来的发展空间在哪里?

打开网易新闻 查看精彩图片

未来,正在加速到来。

主持人

谢岩 Monica:真格基金投资副总裁

联合主持人 Peak:真格基金 EIR

嘉宾

戴雨森真格基金管理合伙人,聚美优品联合创始人

李珎:Replit Agent 核心成员,Replit 资深工程师

王星尧:Allhands Al (FIFIE OpenHands) 联合创始人,首席人工智能官,UIUC PhD

惠彬原:阿里巴巴通义实验室科学家

时间轴

Coding Agent 的发展演进

01:56 嘉宾自我介绍与最近体验到有意思的项目

13:36 Coding Agent 的四个代际与三次进化

16:53 Devin 引发的全新想象:工作的 Scaling Law

两家 Coding Agent 公司的创业故事

20:47 Replit Agent的创业历程及关键节点

25:50 「优秀创业者的产能会被无限放大。」

35:59 几次技术更新:Integration、Edit 和 UI

38:06 未来不同 Coding Agent 产品形态会复合吗?

37:30 OpenHands 不同寻常的诞生

47:48 「要用有限的空间,做无限的事情。」

52:25 开源:用 Coding 推动一种技术民主化

1:02:40 Coding 产品的长期竞争力是什么?

o3 发布:突破、局限与趋势

01:07:20 AGI 的未来已经近在眼前

01:18:10 解决真实世界的复杂问题,o3 还需做什么?

01:22:23 SWE-bench 被「刷爆」,下一个 Benchmark 是什么?

未来,如何做好一个 Coding Agent?

01:34:27 Coding Agent 重要时点回顾

01:39:23 未来的组织形态,理想工程师的画像是?

01:56:11 如何提高模型多步骤任务的能力?

02:05:54 Agent 普及后,底层技术栈的新机会

02:11:30 投资人视角下的创业机遇

02:23:27 快问快答

Cursor:https://www.cursor.com/

Cognition labs/Devin:https://app.devin.ai/

Replit:https://replit.com/

Replit Agent:https://docs.replit.com/replitai/agent/

OpenHands:

  • 官网:http://github.com/

  • 论文: http://arxiv.org/

VisualWebArena:http://arxiv.org/

TheAgentCompany:

  • 官网 http://the-agent-company.com/

  • 论文 http://arxiv.org/

Computer use by Anthropic:https://www.anthropic.com/news/3-5-models-and-computer-use/

你可以通过小宇宙、苹果 Podcast 、喜马拉雅收听我们。如果你对节目有任何的建议与期待,欢迎在留言区互动~

如果你有任何的创业想法或合作想法,欢迎发邮件到 media@zhenfund.com !

打开网易新闻 查看精彩图片