2024年快要结束了,大模型有什么方向验证了PMF?
AI Coding(AI 编程)肯定算一个。
从2024年年初起,不仅Devin、Cursor、Bolt.new等AI Coding产品不断刷屏,各家初创公司的融资也节节攀升。
截止目前,这一领域至少跑出了Poolside、Cognition、Magic、Codeium、Replit5家独角兽。而AI Coding的"老大哥",GitHub Copilot 已拥有130万名付费开发者用户、7.7万个机构用户,收入也暴涨至 3 亿美元。
在国内,AI Coding同样成为必争之地。
不论是阿里的通义灵码、字节的MarsCode,还是百度的文心快码,押注AI的巨头几乎人手一个AI Coding。创业公司中,智谱AI、硅心科技、Gru.ai、新言意码同样活跃。
「四木相对论」最近深度交流过的「AIGCode」(蔻町智能),也是一家专注AI Coding的创业公司。
AIGCode于今年正式成立,核心团队20余人,来自清华、微软、腾讯、字节、百度、华为等一流高校和企业。
这家公司的核心团队,对创业并不陌生。
AIGCode的创始人兼CEO宿文,博士毕业于清华大学,曾在「数益工联」担任COO。更早前,他在华创资本、嘉实投资做投资。
联合创始人兼CTO陈秋武是算法专家。他曾在微软、腾讯、百度等公司从事算法与架构工作。
创立AIGCode前,陈秋武在多个垂直行业公司担任算法负责人和CTO,重点进行大模型落地。
*宿文和陈秋武
在宿文和陈秋武的眼中,AI Coding的迅速火爆在意料之中。
"Coding是最适合AGI的路。如果Coding都无法实现AGI,其他领域更不可能。"宿文告诉「四木相对论」。
陈秋武补充,在尝试落地垂类模型后,他认为绝大多数的垂类模型受制于行业Know-How和价值观,无法达成贴近AGI的效果,但Coding由于天生适配到了最多的大模型人才,是最适合AGI的切入点。
和Coding这个切入点一起确定的还有,他们要训练一个自己的通用大模型,并基于这个模型提供AI Coding产品。
是否要在代码领域训练通用模型,是一个非共识。
目前在行业中,存在不训练模型直接做应用、训练垂直代码模型和训练通用大模型三种路径。
Cursor,是基于Claude 3.5 Sonnet直接做应用的代表;而Magic、Poolside,则不想依赖其他LLM,开始在代码数据中训练自己的代码模型。
AIGCode想走的是第三条路,也就是训练一个通用大模型,并以Coding为切入点打开局面。
"生成代码的模型,本质上应该是以AGI为目标的。这个模型里要有所有的数据,而不是只有代码数据。它们的底层都是 AGI。"宿文认为,现在的通用大模型存在幻觉、学习能力不强等问题,这也是阻碍AI Coding和AGI落地的原因之一。
也就是说,为解决通用大模型现在的问题,并提供最能证明AGI价值的Coding产品,AIGCode选择训练自己的通用大模型。
为了实现这个目标,他们还对模型的网络架构进行创新。
目前,AIGCode已经训练出基于Transformer和推荐算法PLE网络架构的锡月大模型。
这一模型的创新处在于,将Transformer的注意力机制Attention和前向层FFN,转化为多专家混合时能显著区分开不同专家并针对具体问题合理协同的架构。
这种能对多个专家进行解耦,并提取专家间在不同场景任务下协作关系及自身特征的模型,能达成的效果是:
让大模型的预训练更加灵活和高效,拥有更好的学习机制,同时减少模型回答问题、执行任务时的"幻觉"。
"Mistral的创新在于把MoE架构和Transformer做结合。但各类样本学习程度不统一的问题,在推荐算法领域是 MMoE、CGC、PLE 这些网络架构解决的。"陈秋武说。
他对比,MoE架构的模型类似于专家分诊。在遇到任务的时候,MoE找到概率最大的答案,再把答案分发出去。但锡月大模型是专家会诊模式,也就是把专家的能力能力定位到某个病症上,针对这个问题动态合理地配置多专家协同权重的网络。
"相当于给模型一个决策机制,这个决策机制相当于一个中控。中控会把任务分发给对应的功能模块支持工作。只有这样,才能确保模型能回答正确。"陈秋武总结。
目前在代码方面,AIGCode 7B 锡月大模型已经能与 GPT-4o 等主流模型媲美。
*AIGCode的模型架构
基于锡月大模型的产品——AutoCoder在11月21日发布内测。
(申请链接https://www.aigcode.net)
在两位创始人看来,这是全球代码生成领域首个LLM-native "autopilot"自动编程产品,而非copilot或者coworker。用户不需要任何代码基础,就能端到端生成应用。
"我认为程序员最终肯定会被'干掉'。"宿文表示,这款产品此时的目标用户是产品经理,帮助他们在不写代码的情况下实现软件产品创意。
再往远看,干掉程序员只是过程,不是最终目的。AIGCode的远景目标是,让每个人都能通过自己的产品,拥有属于个体的Personal APP。
这个Personal APP的价值在于,由于满足个性化需求,它能拥有比通用APP更强的流量黏性,成为AI时代Super APP的雏形。
"老的互联网是一个平台,只提供了链接本身,并不生产内容。如果个体能去生产内容,拥有Personal APP,整个生态就会完全不一样。"陈秋武认为,Personal APP会解放内容生产的效率,创造一个新的生态。
"这些不是可能性,是必然性。我们100%确定——Auto-Coding is AGI, Personal App is the End."
以下是「四木相对论」和AIGCode团队的对话实录:
「四木专访」是我们推出的创业者对谈栏目,如果你也是AI创业者,有故事、观点想和大家分享,欢迎联系我们~
谈公司:不只做AI Coding,而是在做AGI
四木相对论:首先的问题,是我们为什么选择AI Coding这个方向?
陈秋武:Foundation Model训练完之后,还是要面向应用,而现在的基础模型和应用效果之间,还存在比较深的Gap。垂直模型也都没跑出来,因为需要的Know-how太多,很难达到理想效果。
我们觉得,实现AGI还是需要有闭环,这个闭环就是模型价值和应用价值之间的链路要通畅。我们自己本身是资深的程序员,团队大多是技术背景的情况下,Coding这个链路就可以自洽。不像其他的垂类,很难自洽。
现在很多垂直模型存在上限,比如GPT4在注册税务师考试上已经有很好的水平。但目前的这个水平,就是最好的水平,不会再有效果上的提升,因为税务行业又不可能要求OpenAI配合做税务方面的优化。而Coding不一样,我们程序员本身就是Coding领域的专家,从人才、经验、场景等等方面的适配度来看,这个领域是天然适合大模型展示AGI价值的。
四木相对论:AI Coding这个方向上的选手现在非常多,我们会有哪些不一样的事情?
宿文:从GPT3.5开始,大家很热情地去投整个大模型赛道。从算力、模型、应用层投进去的资金和聪明的脑袋很多,但今天来看,我们想要的、想象中的可能性都没有实现。
一个核心点是,目前能够看到的最好的模型,o1也好,Claude3.5也好,在代码生成上的支持还是远远不够的。尤其只做补齐肯定是不够的,我们认为,代码的生成是直接把程序员最终替代掉。或者说,把程序员在很大一部分场景里替代掉。
基于这个目标再去看,现在的模型有很明显的短板,不管是上下文的长度,还是整个网络结构的学习能力,都还有不足。Scaling Law的暴力出奇迹,不是唯一的路。大家在网络结构和上下文的技术点上,还有很多工作可以去做。
我们的团队选择去解决这些问题。但解决这些问题就需要一个很好的场景,一个足够适合大模型落地的行业去培养这个模型。看下来代码是最合适的。
四木相对论:所以整个逻辑是,AIGCode要做一个更好的通用大模型,但选择Coding的场景去落地。
宿文:我们的核心逻辑是看事情的终局。大家都想依赖大模型去构建一个产品,但当我们发现不论是哪个模型都没法解决问题的时候,我们就决定自己做。
另外还有一个误区是,很多人对垂直大模型和代码大模型的认知不对。Pre-Train层面的模型都是 AGI,不是垂直模型。
还有人说,现在不需要一个用代码训练出来的代码大模型。这个观点也是有误区的,因为生成代码的模型不代表它的训练是用代码数据去训练的。生成代码的模型,本质上还应该是 AGI的,是多专家的。这个模型里会有所有的数据,只是它最终的应用场景被叫做垂直应用。垂直模型的底层都是 AGI。
四木相对论:本质上,AIGCode虽然叫"Code",但就是在做一个通用大模型。
宿文:对。
模型:自研架构,提升预训练效率和任务精准性
四木相对论:AIGCode的模型选择了一个新的架构,原因是什么?
陈秋武:从一个模型的训练来说,它的网络结构和样本是最关键的。模型的效果,并不是拥有全量的数据、用最大的算力就能暴力出奇迹。最开始去训练模型,很多层面还要依赖模型对样本的理解。高质量的样本并不是海量的数据,这是两个不一样的东西。
目前的通用大模型有一个比较致命的问题,OpenAI已经有了足够的资源,也有足够的样本。Scaling Law的两个最重要元素,算力和数据样本,在全世界范围内它是最好的。但非常明确,就算是OpenAI的这两条链路,现在也撞到了南墙。
13B以上的模型,逻辑能力没有提升,AGI的能力没有提升。它只是参数大了,能够记得的东西多了,整个概率链路上记住的特定场景知识更多了,仅此而已。模型的逻辑能力并没有提升,有可能只是幻觉抑制能力提升了。
目前行业里的第一个共识是样本已经达到了上限,特别是高质量的样本生产不出来。或者说,它的增长速度远低于算力增长的速度。两者不匹配意味着整个人类AGI的进度受限。
我们很早就已经确定了一个方向,就是在样本、算力固定的情况下,提高大模型的学习能力。
现在样本中的知识,其实没有被已知的所有大模型充分学习到。比如现在去问一个大模型一篇Paper里的内容,Paper里有非常复杂的应用逻辑和理论逻辑,基本上模型是一问三不知的。
大模型从概率层面给出答案,热门样本的推理效果会很好。原因是在所有的概率分布里面,它是最高频出现的。低频的样本,是小概率的,大模型就学不进去了。
这个问题是网络结构导致的。Transformer的网络结构其实就分为两个方面,一个是Multi—Head Attention,一个是 FFN。
举个例子,比如有一句话是"这里有个花园",到了"花"这个词要预测"园"这个Token的时候,我们会计算前面所有 Token的概率,也就是预测"园"这个字的权重概率是多少,这就是Multi—Head Attention做的事情。
FFN只是把概率过一遍。"花"后面可能是"花朵",可能是"花园","花园"的概率是最大的,所以它排在了最前面。其实所有大模型的网络系统就这么简单。
虽然在预训练上下文窗口内有注意力机制带权重的,但跨多个4K(~128K)预训练上下文窗口间并无权重控制。那这样必然导致一个问题,就是高频的、比重比较大的那些样本排在前面,长尾的问题——一般难的问题都是长尾的,这些难的、长尾的问题就学不进去。
所以我们要解决的问题是,把这些难的、容易的、高频的、低频的问题做正确地解耦。
四木相对论:我们强调的PLE(Progressive Layered Extraction,渐进式分层提取)架构,是在解决这个问题吗?
陈秋武:是的。我举个最简单的例子,一个桌子上有好多东西,现在杂七杂八、没有条理地放着,但是更高效的方式是什么?是小的东西归置在一个区域,体积比较大的放在另外一个区域,进行合理的分区。就像人脑一样,它有听觉区域,味觉区域、嗅觉区域,有不同分类。
这样做的好处,第一是可以规避跷跷板的问题,也就是避免某个知识因为样本比例小而学不到。而且它因为能合理的分工,把正确的任务和学到的东西分离开,学习的效率就上升了。下次模型学到这块的时候,发现已经学过了,就跳过。
这也就是通过网络结构的改变,提高模型的学习能力。
再讲专家解耦,因为每一个专家会对应到相关领域的应用效果,这会提供从预训练到模型在某特定领域应用的连接点。这个连接点可以提供一个新的范式,就是网络本身的利用率。
模型在反向传播更新权重的时候,你会发现有的权重、有的神经元的更新幅度非常小,有的幅度非常大。浮动大的这部分神经元是被激活的,那就会得到一个客观的数学数据,就是神经元的平均激活率。这个平均激活率和样本的输入以及最后的应用之间,可以用下游任务效果的好坏,建立一个线性关系。
这个线性关系,就可以评估我们所有投入的算力以及样本对于项目任务的好坏。这个链路必须要专家解耦才能实现。
四木相对论:如果从具体的效果上来总结,你觉得PLE的架构解决了什么问题?
陈秋武:大模型其实有三个问题导致了幻觉。第一,知识在模型学习的时候,没有学到。第二,是没有逻辑链路。第三是虽然逻辑链路链对了,但是组织关系错了。等于任务和模型链接起来了,但是它并不能回答这个问题。
就像地图上的导航,导航从a点到b点,首先要有a点到b点的信息,如果没有这个信息是完全不行的。知识在不在这个模型里,通过PPL(PPL指模型的困惑度,PPL值越低,模型对数据的理解越好)就能算出来。但知识链路在不在模型里,这个问题比较复杂。
知识的链路在不在,和专家领域的能力有关系。逻辑其实是专家领域,有因果关系,有递进关系等等。假设一个回答,需要用到某个逻辑链接,那这个逻辑链路的样本是什么?如果缺失的话,你要回溯、定位到这个问题,再去补全能力。这就会涉及到专家要解耦出来,单独摘出来去训练完,再塞回去。
只有各个领域的专家解耦才有可能解决这个问题。它不是微调、对齐能够解决的,只能从预训练的层面去解决。
解耦的预训练会有很多好处,假设这个问题被定位到是由于缺少了一个递进的逻辑关系导致的,那么我们用相应的样本,塞进去解决这个问题,下游任务也会解决,这就形成一个很好的闭环。
四木相对论:也就是说,这个架构的模型能灵活地进行预训练,也能提升模型的学习能力和任务的实现精准性。提到专家,这个架构和MoE的区别是?
陈秋武:MoE是1991年出现的Paper。它类似医院的分诊制,比如说你去医院挂个号,它会判断然后让你去发热门诊或者其他门诊。
如果再拿桌子上放的东西对比,MoE记下来的是放东西的概率链,下次遇到任务的时候,模型会找到最大概率的内容,然后再分发给出去。所以它在预训练的时候,成本并没有降低,也没有结构化,内容还是随便乱放的,但是推理的时候只要找到路径,就把它附近的专家激活,推理的成本就下降了。
Mistral的贡献,就是把1991年的MoE和大模型做了结合。而跷跷板问题,在推荐算法领域是 MMoE、CGC、PLE 这些网络架构解决的。
落到区别上,我们的锡月大模型不仅是一个分发、分诊。我们是专家会诊的方式,把专家的能力定位到病症上,针对这个问题单独有一个网络。也就是给模型一个决策机制,这个决策机制相当于一个中控。中控会把任务分发给对应的功能模块支持工作。只有这样才能确保模型能回答正确。
MoE是简单的概率分发,而我们是神经元的复杂网络结构,神经元里存储的是不同专家间的关系,专家自己的信息也可以保存。我们的架构里,各个专家之间,比如说代码专家和自然语言专家之间的互相的关系,就保存在Gating的 NetWork里面,而不仅仅是个分发链路。这里面是有复杂的逻辑关系的,它实现的核心是把专家解耦开。
专家间的关系,以及专家在回答当前这个问题的时候占的比重是多大,这两个问题是 MoE 完全没办法解决的。PLE 在分发机制那层就有了自己的决策机制,会针对当前输入语境,动态调整不同专家的权重。
四木相对论:那么在实际效果上,这种方式对比之前会有多大的区别?
陈秋武:我说几个实际的,比如预训练的价格。预训练的过程当中,大家训练一次大模型可能几百万美元或者几十万美元打底。现在中间如果某一个小的专家级,比如自然语言或者说代码专家出现了问题,我们可以把它摘出来,修复完了再放上去继续预训练,而不用出现问题后从头开始预训练。
而且,7B到13B,13B到33B的扩展预训练,在这个架构里专家解耦后的网络是可以被继承下来。因为在这个模式里专家是相互独立的,这就好像,一个人跑了10公里,要再跑20公里的时候,就能接着10公里继续往后跑,而不是说像现在一样的回到最起点再重新再跑一遍。这两个因素叠加在预训练的价格和迭代加速度的差距可能是三倍至十倍甚至更多。
四木相对论:这是对预训练的效果,那么对实际任务的执行会有什么效果呢?
陈秋武:从实际使用的效果来说,刚才讲的排查问题也是非常有用的。如果你遇到一个问题,但不知道这个问题的根源是什么,那何谈解决。
我们了解到,Claude有个核心团队正在做模型的可解释的问题。这个方案其实是可解释的一个非常重要的链路,但我们已经做完了。这对于提升模型的准确率是非常重要的。
我们现在发布了7B的模型,有榜单的成绩。其实综合性能已经属于最好的,因为它是7B,其他差不多的模型可能有400B。
*benchmark展示:粗体为最好,下划线为第二名
四木相对论:做这个新模型,AIGCode遇到的难题是什么?
陈秋武:网络结构的设计和落地,需要的实验的成本是非常高的。每一次实验完的下一步优化有1000种可能性,其中99%以上的可能性都是错的。我们要用实验的方式根据实验结果数据分析归纳去推导出正确的路径,这也是为什么 Mistral在2023年中能拿到那么大一笔投资的原因。
这个领域其实人才很稀缺,有大型互联网公司的核心推荐系统,一天上亿收入的体量,但模型组只有20、30人。而在这里面能做出核心效果的也就2、3人。业内不管是国外还是国内,都很难找到合适的人。
四木相对论:这个模型的训练用了多久?
宿文:理论上我们可以做到20台国产GPU机器,160张卡,花费25天。但实际上我们训练了两个月多一点,因为所有的实验,包括前置的小样实验,还有中间网络各方面的故障,以及国产分布式平台的性能,我们都需要去处理。
我们的训练速度在业内是别人的两三倍。而且,有些分布式训练在业内也没有先例,我们花了三周时间就解决了这个问题。
谈市场:AI Coding很多人拿资源打假赛
四木相对论:怎么看AI Coding大家的不同路线?
宿文:现在主要有两条大路径。一个是现在卷得要死要活的Copilot路线,GitHub和Cursor都在做。这种大家也都用通用模型实现,要么用自己的,海外用Claude 3.5做效果最好。大厂的一些产品也是一样,核心逻辑是在一个IDE里面去给程序员做代码补齐。
这是一个存在的场景、存在的用户和存在的问题。大家在用已经存在的模型,提供一个最短平快的方案。但这里面从产品交互上也有很高的门槛,也就是进去做容易,但做出来也难。Cursor也在后面只是喝汤而已,距离吃肉的Copilot还有好几个身位。
这个方向还有一个很难的点,就是需要有 IDE。微软就有IDE,所以这个方向可以留给大厂去做,对初创公司比较难。
另外一个路径,就是我们认为的AutoPliot形态。
我们来想想AI Coding的终局是什么,不是写代码,而是为了呈现一个应用。单纯秀一万行代码,So what?有什么意义?谁在提这些需求,是产品经理。
所以,我觉得代码应该端到端地去做生成,为用户把使用门槛大幅度降低,让大家变成能够提需求,就实现效果的人。但是在现阶段,我们认为的用户,首先是一个专业的产品经理。因为我们也不指望,此时就会很多人脑海里突然蹦出很多需求,这不会的。但是当有人有需求,要去消费这个软件,需要个性化应用的时候,就都可以用。
也就是说,我们希望提供一个产品,可以让所有代码的推理成本几乎为零,让个性化应用的市场打开。目前的APP都是通用市场,普通人做不了自己的APP,做一个程序员还是有门槛,所以大家没法实现个性化应用。
让个体实现个性化应用,这是我们眼中的终局。所以我们绕开IDE生态,直接在外部端到端地做交付。但是目前模型能力不够,所以我们也做模型。
四木相对论:有没有某一个产品或某个公司是我们现在重点关注的?
宿文:其实我们很关注Poolside和Magic,因为这两家看起来真的在自己做模型。Cursor虽然也说要自己训5B~7B的模型,但这个在代码领域也不够用。而且,它都用到Claude3.5了,就算之后说要用开源的Llama训练,效果还是 PK不了Claude的模型。
Devin最开始也是基于GPT4,一直到现在产品出不来、见光死。现在它又要自己训模型,但一看这团队也不是训模型的背景。Poolside和Magic这两家看起来是想好了。
四木相对论:Magic在模型上强调了长上下文。
宿文:长上下文也是一个当下的很大的痛点,我们也在解决,有自己的方案,目前做了4M级别。我们希望奔着T级别去做,这是一个很大的创新。Magic几个月前的模型,说做到了100M上下文,但行业内波澜不惊,因为是Mamba架构做的,这个架构不好实现。
很多公司都说要做代码模型,但可能做着做着遇到问题,停滞了。所以要看大家做模型,到底是架构上创新还是有其他创新,还是说也囤了10万张H100。这个领域看起来很热闹,但全球能真能出来,有用户和客户的很少。
陈秋武:之前我们开玩笑说,这个领域来了一堆非专业的人,拿了很多资源在打假赛。AIGCode也不会捏软柿子PK,我们就是和Llama、DeepSeek、Claude的大参数模型去比。
四木相对论:怎么看DeepSeek?有不少人好评它的代码能力。
宿文:它也不应该称为代码模型。它和我们一样,底层都是 AGI,决定了在代码场景的效果不错。DeepSeek是真正在做事情的团队,但模型的技术架构方面,我相信我们走的更超前一些。
当然,他们也要在Coding赛道做一些插件,更像代码补全。从这个角度,我们做的产品形态上又完全不一样。
干掉程序员,让Personal/Super APP长出来
四木相对论:现在很多人已经在用AI Coding产品。尤其一些大厂,甚至还定了内部消耗的KPI。我们会有后发的劣势吗?
宿文:我们和其他家的定位不太一样。我们是给产品经理用的,第一天就不服务程序员,和其他服务程序员的产品是没有任何竞争的。
四木相对论:但产品经理真的想去卷本来属于程序员的工作吗?
宿文:产品经理需要画N个图,写几十页的文档,好不容易把程序员请到会议室里沟通需求,再被他们喷得体无完肤。产品经理也需要工具满足自己的想象力,我觉得之后程序员肯定会被淘汰的。
我们定义自己的产品是产品经理工作流的一部分,可以让他的工作形态发生一些转变。举一个简单例子,如果企业今天去做To B业务,客户需要PoC,这个时候项目经理,售前、产品经理都可以通过我们的产品把这个事情做完。这种场景非常多。
四木相对论:现在AIGCode的产品进展如何?
宿文:现在的一些简单应用,包括软件原型的Demo、PoC我们已经可以做到。我们会先用产品实现前端,后面再把后端需要的、带数据和逻辑的功能加进去。
我们创业还不到12个月,还有很多之后的计划。如果软件原型能做下来,我们就能够生成最终可被交付的东西,那时程序员就能被完全替代。
陈秋武:需求是海量的。如果大家只用自然语言的方式提出一个需求,就有一批工具帮忙把软件生成好,一键部署到服务器上,那么很多场景都能被释放出来。当别人还在做一个工具时,我们在做的事是做生成批量工具的平台。
我们在创造供给,没有在一个存量市场做事情,这件事是可以解放生产力的。
从技术进展来讲,Web1.0是导航,2.0搜索,3.0是推荐,改变的是信息流转的速度,传播的效率。上一代的互联网产品提升供需的链接效率,本身不提供内容,但是在大模型的时代,大概率大家在提供平台的同时,会提供生产内容的服务。
四木相对论:这里的内容指的是什么范畴?
陈秋武:比如虚拟陪伴的聊天功能,是模型生成的,不是真的有人和你聊天。同样,代码也是生成的。从生产力的角度来看,这种内容生产的质量和速度,是下一代互联网、技术迭代最核心的链路。
成为一个程序员现在还有门槛,写代码相当于拿到二级电工证才能去操作的一个东西。所以,APP的生产受限于8000万或者9000的万的群体。但每个人其实都有自己的软件需求,因为他们有个性化内容消费的需求。
我们的产品,如果能够加速每个人内容生产的效率和质量,那么内容供给这一侧就会井喷。所以,我们要在这个链条上加速。这是我们的逻辑,这个产品不会给程序员用,而是给有一些业务逻辑的人去用。
四木相对论:关于这个目标,我们设计了怎样的计划表?
宿文:APP的开发落地是一个非常长的链条上,从需求的提出到demo,再到最后落地开发,产品经理和研发一定先要和业务团队去沟通落地。前端做完,还包括后端数据库、运维、上线,最后还有反馈和运营。这么长的一个链条,如果后面的内容全部砍掉了,整个供给效率和内容本身都是新的形态。
这是一件有颠覆意义的事情,我们没法在这个阶段,也就是公司成立不到一年就把它干完,要不就是骗人,要不就意味着门槛很低。
我们会有一个周期,乐观预测可能需要一年到一年半的时间,把整个大链路,也就是整体的APP交付这件事上基本跑通,这是我们的预期。
在最近的一个季度内,我们在产品发布之后会快速拿到内测,通过用户数据决定我们往哪个方向迭代。还有一个是付费点,这里会和Figma很像,是给专业的用户用,也就是生成完代码,进行部署的时候需要付费。之后,我们也会做Global市场。
四木相对论:看到我们把代码生成这件事分成了L1~L5。现在我们在哪个阶段?
陈秋武:L1类似低代码平台。L2是辅助程序员,让他们根据提示生成代码。L3能端到端地完成编程任务,不需要程序员介入。L4是多端自动协作,让大家能直接把想法变成软件或产品。
现在我们是L3的初始阶段。
L5是最终目标。是说有了产品,还要自动化地把它部署到所有的运营渠道里,再根据流量的反馈,自动生成多个相应的版本去试下一个阶段,一直到真正被市场或者流量校验过的产品出现。
四木相对论:如果这个愿景实现,感觉互联网大厂不需要存在了,至少不需要那么多人组成的大厂了。
陈秋武:我们要问自己增量价值在哪里。现在很多能拿资源凑起来的东西,在我看来都是没有增量价值的。这种能根据实际反馈,把产品价值的验证链条极大缩短的东西,才是真正的增量价值。
四木相对论:如果要实现L5这个目标,我们会通过一个产品不断优化,还是产品矩阵来实现?
陈秋武:可能大家现在还是习惯沿用上一个阶段的思路。SuperAPP的形态不重要,但是竞争力是超级智能。形态我相信大家都是很模糊的,但互联网已经把低垂的果实摘完了,这种情况下,不能希望用老的思路拿到价值。
我觉得超级APP的思路是,它的流量本身是绑定在APP上的。举个例子,现在大家的微信是一样的,但如果现在我可以定制一个自己个性化的微信,尤其根据个人实际情况不断实时调整,我对这个APP的黏性是远远超过通用APP的。再往后,SuperAPP也可能变成为比个性化APP服务的上游通用基础供应服务。
四木相对论:或许还得问一个"老思路"的问题。这件事和千人千面的区别有多少?
陈秋武:我做了很多年推荐。这个领域一个很重要的问题是,优质内容生产的效率不高。你刷一个APP,刷60分钟可能没问题,但继续再往下刷,内容质量其实蛮差的。原因就是高质量的内容,在供给侧是不够的。
老的互联网是一个平台,只提供链接本身,不会生产内容。所以,如果提供一个Personal APP去生产这些内容以及服务,整个生态就会完全不一样。
这是绝对的趋势,我可以100%确定。我们现在讲的这些不是可能性,是必然性。我们内部一直相信,Auto-Coding is AGI, Personal App is the End!
四木相对论:现在我们怎么定义自己的公司?从基础大模型到产品再到Personal/Super APP,我们怎样界定自己?
宿文:我们做的事情确实很多。
拿基座模型来说,从GPU的优化层开始,我们会做分布式预训练、算子融合、性能优化、算子对齐,一步步把这些实在的技能全部积累下来。再往上,我们有能生成应用的产品。
最后,我们要一路做到L5,帮助Super APP落地。
热门跟贴