2025年7月,北京的夏天比往年更热,AI Coding赛道的热度,则比天气更火热。
7月21日晚,字节跳动旗下Trae更新了“Solo模式”,抢先腾讯第二天发布的AI编程助手“CodeBuddy”;紧接着7月23日,阿里通义千问发布代码模型Qwen3-Coder,并基于 Gemini Code 进行二次开发Qwen3-Coder;同日,亚马逊还发布了编程产品Kiro,海内外大厂都瞄上了AI编程赛道。
我在上周六采访AutoCoder创始人宿文之前,曾提前交流过AI编程的激烈现状。对于AutoCoder来说,幸运的是,AutoCoder从2023年底开始全身心投入全栈的AI Coding,早于国内外的大厂。
同时宿文也强调,还是不能和大厂卷辅助编程,卷IDE(Integrated Development Environment,集成开发环境),要走出差异化竞争的路线。
来源:腾讯《AI Coding⾮共识报告》,AutoCoder位于Vibe Coding与异步Coding Agent融合的象限
AI Coding已经成为2025年AI行业最卷的赛道。无论是创业者还是大厂,大模型最直接引发的AI产品海啸,就在编程服务领域。下场玩家不仅要全力奔跑,还要跑出差异化,才能不被淹没,甚至未来有机会成为弄潮儿。
AutoCoder能否在AI Coding领域战胜国内外的一众产品吗?
了解宿文的朋友都知道,他从清华博士毕业,连续创业者,现为AutoCode创始人。
因为有多年科技领域投资的经验,他对创业的思考非常明白,从day one到今天,他的创业主线没变过。『我可以拿出我们第一天创业的 BP ,我还记得我们 CTO 用的很丑的颜色字体,但里面的战略内容、技术支点、架构方向没有大的调整。』
创业一年半以来, AutoCoder在瞬息万变的AI赛道能够坚持了下来,当然也是宿文内心的偏执:复刻个60-80分的Cursor没前途,要做一款全流程的AI Coding产品,说白了推动AI DevTeam(Development Team,意思是人工智能开发团队)的目标实现。
这个目标即使今天来看也不容易,目前全世界没有一款全栈生成产品真正做到80分。
上半年大火的前端生成产品如Lovable等只能说做到了前端80分,但越往后端,架构生成和部署上线等环节,AI都更难解决。
鲸选测试的案例中,实现了大部分的构想,但还是存在一些功能完整性问题,Vibe Coding还有很长的路要进化。
作为初创企业者,宿文非常有野心。团队花一年时间迭代了自己的代码模型,参数不大66B,但专门为“需求到应用”而生,效果不错;相比Trae等通过免费Token推广,AutoCoder第一天就收费,希望像Lovable一样快速商业化;产品直接面向全球化竞争,帮助泛互联网用户群体也能实现产品梦。
不想做‘更快的打字员’,而是要做‘会思考的架构师’,在宿文看来,AutoCoder必须有更大的产能势能,才能在这么多竞品中活下来,形成自己的特色和生存密码。
创业原点:"端到端生成"走出差异化
鲸哥:作为连续创业者,您决定做AI Coding这件事时,当时有哪些具体信号触动了您?Cursor的出现,或者Claude发布?
宿文:其实我们2023年底开始的时候,Claude 3.5还没发布,但它母公司Anthropic已经融了很多钱了。我记得那时候最好的模型还是GPT-4。
从整个代码生成赛道来看,我们最早关注到的是Codium,也就是Windsurf。当时微软的Copilot还是这个领域的产品代表,收入已经很大了——我印象是3亿美金还是多少?(GitHub 的年收入20亿美元,Copilot占GitHub营收增长的 40% 以上)很大的数字,但那时候确实还没有Cursor的产品发布。
宿文:我们决定做这个事情,核心的一个原因是,对于大模型的技术能力到底能够率先地支持什么样的产品的判断,能够做严肃的PMF(产品市场匹配)的产品肯定不是情感陪伴类这些,我们认为代码生成可能是唯一能够去验证PMF的领域——它既有明确的评估指标,又能形成数据飞轮。
鲸哥:数据飞轮在初创企业中也非常重要吗?
宿文:对,非常重要,决定了一个初创企业能走多远。很多行业因为大模型不成熟,其实最终用不起来。你看今天千行百业的垂直模型,其实只是挂了知识库,在做搜索、做知识问答,但没有改变行业的工作范式,也没有切入到工作流程中。这带来的隐患是,它并不能够带来健康的数据反馈,从商业化角度看,不在一个很好的闭环里解决行业问题。
无论是面向程序员还是普通用户的产品,他们都会用自己的专业能力去弥补技术和工具的不足。在这个过程中你会发现,得到的数据飞轮会好很多,从商业化上也能够把数据飞轮转起来。核心就是这两个点:一是基础技术足够靠近,二是商业化的数据闭环能够构建。
鲸哥:决定做AI编程这件事后,当时创业环境正在发生变化,您觉得AI创业和之前移动互联网时代有什么不同?
宿文:其实当时就是奔着做事去的。等到2023年底的时候,已经能看到国内机构在模型或产业链早期有不少出手,但市场整体还是偏冷。大家热在大模型、热在具身智能,以及其他政府引导驱动的方向,市场化基金也在跟进。
但从另一个维度看,国内好的AI资产其实很少,团队能力强大的也少。整体上,面向中国资本市场时,一方面市场本身还是偏冷,另一方面优质资产稀缺,这是当时的真实情况,也是当前的。
鲸哥:当时资本更喜欢Fomo(恐惧错失)情绪驱动,还是更看重实现PMF的商业化能力?
宿文:其实都有。有可能这种偏技术主义的会买单,但更多的还是看商业化、看产品。像朱啸虎这样的投资人,在整个行业早期大家看不清楚的时候,各种争论都有。
但整体上来说,还是观望态度大于Fomo情绪。其实Fomo的机构就那么几个,出手的没投中什么,没出手的也没错过什么。这种情况下,需要有团队真正做出结果,大家才会慢慢买单。
鲸哥:为什么不做类似Cursor的代码补齐工具,有个对标的产品资本更熟悉,而是选择端到端生成?
宿文:我们第一天就定了做端到端生成。今天很多AI编程产品形态是用来做辅助,帮程序员做代码补齐,但我们是完整生成一个产品的形态。具体到这款叫AutoCoder的产品,我们核心做了两件事:一是需要自己from scratch(从零)去训练一个基础模型,二是针对大模型时代做适用大模型的软件架构,这样才能最终把这个事情健康地走完。
宿文:代码补齐工具其实依赖IDE生态,最终会陷入和大厂的同质化竞争。现在看这个判断是对的——不到两年时间,独立发展的只有Cursor,其他基本都成了大厂生态的附庸。我们想开辟的是增量市场,而不是在存量市场里内卷。
宿文:这里面就会看到,除了存量的程序员,其实还有很多人的需求没被满足——程序员的需求源头来自于谁?来自产品经理、解决方案专家
、项目精力……一堆的需求方,这些人其实才是真正的增量市场。我们想做的是让这些不懂编程的人也能生成软件,不再受限于人类编程的低效和高成本
产品技术:双支柱自研的核心选择
鲸哥:前后端全流程自动化怎么实现?尤其是后端涉及业务逻辑和架构设计,怎么达到可用状态?
宿文:单纯依赖模型是做不到的,可以严肃地说,把整个应用的底层数据库、后端中间件这些做好,目前模型是完全够不着的。我们做的其实就是围绕模型解决业务逻辑的幻觉问题,同时构建生成式软件架构——有人认为这是Agent架构或Agentic架构,怎么叫都不重要,关键是要两条技术支柱一起实现,单方面都不太好做到。
鲸哥:作为初创公司,做自研大模型成本高吗?
宿文:我们用千万级人民币成本做出了大幅度超越DeepSeek V3级别的效果,靠的是模型架构创新,而不是拼参数量、算力和语料。这才是初创公司该走的路——没法从传统逻辑上PK,必须从更陡峭或收益更大的角度,在结构上做创新。
鲸哥:你们做的算是通用模型还是垂直模型?
宿文:如果你是Pre-train模型,那一定是通用的,不可能训垂直的,那是伪命题。只有在应用的时候,在场景上定向微调、强化,Post-train是垂直领域的,不然也不存在垂直大模型这个概念。
鲸哥:产品上线后的用户数据怎么样?
宿文:因为早期版本迭代很快,每周可能发一个比较大的版本。我们看到的核心数据有两个:一是产品停留时长明显超过同类产品,用户群体相似的情况下,我们可能是头部产品的两倍;二是跳出率,同类产品可能在四五十,我们这边不到20%,16%左右。我们这个阶段重点看的就是这些用户数据。
另外,我们的用户次日留存率也不错,具体数字不方便透露,但比行业平均水平高不少。这说明用户确实在我们产品上找到了价值,而不是随便玩玩。
鲸哥:产品全部调用自研模型吗?
宿文:我们也会调用其他模型API,今天一个产品上线涉及很多节点,有些是我们擅长的,有些是我们不擅长的。但核心效果和数据飞轮必须建立在自己的模型上,慢慢再全部替代第三方。
我们产品同步也在做模型迭代,最新版是5月30号收敛的,中间还有很多其他训练任务。这个过程需要时间,但必须自己掌握核心模型能力,不然永远受制于人。
市场破局:开发非程序员的增量市场
鲸哥:您怎么划分当前的用户市场?
宿文:肯定是围绕用户需求做划分。谁会依赖coding工具解决问题?程序员肯定是其中之一,他们拥抱工具的能力很强,但有个问题——他们能力太强了,很容易迁移,哪个好用就用哪个。不过他们是很好的数据闭环,能提供优质的反馈。
另一类就是非程序员。你不能认为非程序员都要写代码、实现软件,但他们有真实需求——其实就是那些平时指挥程序员做事的人,比如泛化的产品经理、项目经理、交付经理、业务分析师等等,或者叫他们"小白"。但这些"小白"不是真的小白,他们只是在coding或软件工程上不精通,但对业务场景非常熟悉,他们其实没必要去学编程,完全可以用我们这样的工具直接生成软件。
鲸哥:大厂现在竞争得非常激烈,您觉得AutoCoder杀出重围最终要依靠什么?
宿文:其实我们没太感知到所谓的"激烈竞争"。现在大厂的激烈,更多是快速follow海外头部公司的产品策略,比如都去做Cursor类的代码补齐产品。但这种竞争只是同质化补充,不是真正的技术突破。
你要跟上Lovable,也不一定能实现。这种差距不是几个月的问题,而是资源投入方向的问题——你没有在他的优势方向做深度补齐,反而想绕路,结果只会更远。
我们认为真正的竞争激烈,是指在新兴市场技术快速迭代时,突然出现一个新技术把你干死,这才是初创公司该担心的。但目前大厂整体上还是在做(海外到国内)同质化的补充,我们反而没什么压力。
鲸哥:最近Kimi K2直接融入了一些Agent代码,您怎么看这种模型即产品的迭代?
宿文:Kimi K2其实主要还是在优化器上做了点创新,从模型架构上扩充参数量,那个Muon优化器可以,但我们今年年初就在做了,只是说他围绕着开源生态在做,但MOE架构没有任何底层创新,只是在应用层放了点数据和工具。
鲸哥:国内外模型在代码上是什么水平?
宿文:得看从哪个维度。今天很多代码测试已经变成定向刷榜了,跟泛化能力、跟真正的工程级使用关联性不大。你看O1、O3、R1、K2这些刷榜厉害,但真正做代码生成产品的都不会用它们。
宿文:大家真正用脚投票的还是Claude、Grok、GPT-4o,包括DeepSeek V3也有人用,但肯定不是那些刷榜厉害的模型。这些模型在特定场景下可能有用,但通用场景还是不行。
鲸哥:您怎么看国内模型和Claude的差距?
宿文:DeepSeek V3在代码生成上有很大进步,但其他家离Claude还是有差距,尤其是Claude 4之后。这种差距不是榜单上的数字,而是真实用户反馈。
这其实是技术报告和真实场景的差距。很多模型在技术报告里说得很好,但真实用户使用时就会发现各种问题。我们判断模型好坏,还是看真实用户反馈和调研结果。
商业化路径:数据飞轮比融资速度更重要
鲸哥:同为线上编程工具产品,Lovable的 ARR好像达到了8000万美元,你怎么看这件事情
宿文:应该差不多,我估计他的算法应该就过去 30 天收款乘以 12, 或上个月收款乘12,这样的数据还是比较健康的,验证了很多市场对他的质疑,或者对这个赛道的质疑。
其实我们看到它的用户量可能是Github的1/ 10了,这是一个非常好的成绩。
原来大家质疑非程序员的一类群体,在什么样的场景下面去用这样的工具?
今天哪怕 lovable 提供的是偏前端去做原型,再集成一点点后端这种开源组件的方式,那它也印证了其实是有大量的人,可能是非程序人群体去用。
鲸哥:全球化布局的挑战是什么?
宿文:这个赛道上可能有三五十家在做的,包括大大小小大项目。为什么要出海?其实是用户在哪我们就去哪。这类产品的工作语言基本是英语,使用产品的用户其实都有办法拿到全球最好的产品,所以从第一天就是全球竞争。这种竞争反而倒逼产品力提升,不是坏事。
鲸哥:重点先做什么市场?
宿文:英语市场肯定是重点,用户基数大,付费意愿也强。我们产品虽然是global的,但目前主要精力还是在英语市场,等基础打牢了再拓展其他市场。
鲸哥:有规划国内版本吗?
宿文:我们是global产品,国内也能用,而且合规——用的是自己的模型,备案这些都没问题。只是我们是初创公司,率先迭代的场景应该抓哪些用户?其实只要是真实用户都可以,国内程序员和国外程序员没有本质区别。
鲸哥:您觉得未来AI产品会更agent化吗?接下来的产品规划是什么?
宿文:我们研究的重点还是灵活调度编排能力,这方面目前还没有好的架构。今天的动态规划能力还不够,我们在关注也在尝试解决,但具体方向还不方便透露。
未来展望:全球竞争与生态构建
鲸哥:怎么看现在流行的"Vibe coding(氛围编程)?
宿文:这个概念把我们包括在内,其实是为了减少用户心智干扰。我们理解的Vibe coding是要解决生产环境问题,要么从模型上解决,要么从生成式软件架构上解决——这才是核心,而不是做个花哨的界面。
鲸哥:现在市场上Vibe coding用户被激发出来了,这个群体足够大吗?
宿文:非常大。但大家好像倾向于用直接解决问题的工具多一些,玩票性质的少一些。这说明用户是真的有需求,而不是跟风。
鲸哥:最后总结几条经验给创业者吧?
宿文:第一,common sense很重要,但很多人的常识是错的——不要立错误的前提,比如"等下一代模型"就是典型的错误前提;第二,速度不是投流或扩张速度,而是数据飞轮的速度;第三,把智能掌握在自己手里,不要依赖别人的模型。这三条做到了,成功概率会大很多。
宿文:还有一条,创业要做"难而正确的事"。端到端代码生成比代码补齐难,但这是正确的方向。如果只做容易的事,最终会发现没有壁垒,很容易被替代。
热门跟贴