谁能想到,曾要坚守“纯粹搞AGI创新”的梁文锋,终究没能扛住现实的重击。
4月17日消息,据The information报道,DeepSeek正在与投资人洽谈首次外部融资,并寻求以超100亿美元(约合人民币682亿元)的估值筹集至少3亿美元(约合20亿元)。
报道称,本轮融资DeepSeek希望增强其资金实力,以便在竞争激烈的AI模型研发领域占据更有利的地位。此前,DeepSeek公司曾拒绝过多家顶级风险投资公司和科技巨头的投资邀约。
如果此次DeepSeek成功完成融资,对于其幻方量化创始人、深度求索创始人兼CEO梁文锋而言,这将是一次重大转变。
梁文峰在业内以技术理想主义者著称,他希望DeepSeek保持独立,不受商业压力影响。
截至发稿前,DeepSeek尚未对此置评。
但另一方面,DeepSeek似乎一直没有发布期待已久的V4模型。因此,市场质疑“DeepSeek是否昙花一现”。
DeepSeek从火到凉的一年
DeepSeek一直由中国对冲基金幻方量化提供资金支持。
DeepSeek于2024年12月发布了处理语言、运行对话应用的基础模型V3,并于2025年1月开始提供具有强大推理功能的R1模型,引发中美AI行业的高度关注。
DeepSeek之所以爆火,原因在于R1模型在更低成本与开源生态的基础上,多个关键任务层面展现出与美国OpenAI o1等顶尖闭源模型相匹敌,甚至更优的性能。
美国风险投资家Marc Andreessen表示,DeepSeek模型是 AI 的“斯普特尼克时刻”,即是20世纪50年代末苏联卫星发射,开启太空竞赛的时刻。
DeepSeek披露过几个关键数据:V3训练成本仅花费560万美元,V3/R1模型理论一天的总收入达到56.2万美元(约合407.41万元)、成本利润率高达545%。
随后,彭博根据市场分析估算,DeepSeek的估值区间在10亿美元到1500亿美元之间,而估值区间的中间值则为20亿至300亿美元。
根据彭博亿万富翁指数,如果按照上述估值计算,持有DeepSeek公司84%股份的梁文峰,身价超过1800亿元人民币,将有望跻身亚洲最富有的科技大亨之列。
尽管过去几个月没有发布DeepSeek V4,但梁文锋团队一直在进行模型小迭代。
2025年12月1日,DeepSeek发布V3.2系列模型(含标准版与高性能版),性能逼近甚至超越同类闭源模型,128K上下文场景中预填充成本降低51%、解码速度提升62.5%,推理总成本仅为同类闭源模型1/3,其中V3.2-Speciale在数学证明赛事中获金牌,达到人类选手第二水平。
2026年1月20日,恰逢DeepSeek-R1开源一周年,开发者在GitHub的FlashMLA代码库中意外发现神秘标识符“MODEL-1”,其横跨114个文件、出现28次,与现有V3.2模型并列引用且未沿用旧版命名规则,暗示DeepSeek将推出架构重构的新版本模型而非简单迭代。
2026年2月11日,DeepSeek App推送1.7.4版本更新,开启新模型灰度测试,该版本疑似V4正式亮相前的终极灰度版。
DeepSeek将模型上下文长度从128K扩展至1M(接近提升10倍),知识库更新至2025年5月,多项核心能力实质性提升且已对齐Gemini 3 Pro及Kimi 2.5等主流闭源模型。
算力耗钱,梁文锋坚守的AI梦动摇了
然而,DeepSeek迟迟未发布,市场猜测与国产AI算力适配缓慢有关。
而随着DeepSeek融资消息曝光,猜测该机构算力资金紧张,让梁文锋不得不选择外部融资补充“弹药”。
早前有消息称,DeepSeek V4首次实现了与国产芯片的深度适配。这标志着中国AI产业在摆脱对国外技术生态依赖、推进去CUDA化进程中迈出了具有里程碑意义的关键一步。
从魔改PTX到使用UE8M0 FP8 Scale的参数精度,DeepSeek先榨取英伟达GPU算力,再适配国产芯片,可能会在软硬件协同方面带来新的突破,进一步提高训练效率。
根据此前报道,DeepSeek V4大模型将彻底重构技术架构,核心引入mHC(多路残差混合连接)与Engram(AI记忆模块)两项黑科技,聚焦代码生成、推理效率与边缘部署三大能力,技术路径从“堆参数”转向“双轴稀疏+记忆-计算分离”。
市场预计,DeepSeek新模型训练成本再降50%,若实现完全开源或将推动行业API价格减少60%。
据报道,DeepSeek原计划于2月份发布其下一代旗舰机型V4,但由于工程和其他方面的困难,发布时间已被多次推迟。DeepSeek的工程师们花费了大量时间使V4能够开箱即用地兼容国产芯片,这导致了发布延迟,因为DeepSeek之前都是用英伟达算力芯片训练。
如今,梁文锋的AGI理想终究败给现实。
梁文锋曾接受采访时表示,国产AI模型训练效率有差距。
“我们估计,国内最好的水平和国外最好的相比,模型结构和训练动力学上可能有一倍的差距,光这一点我们要消耗两倍的算力才能达到同样效果。另外数据效率上可能也有一倍差距,也就是我们要消耗两倍的训练数据和算力,才能达到同样的效果。合起来就要多消耗4倍算力。我们要做的,正是不停地去缩小这些差距。”
“英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。”梁文锋称。
人才流失、竞争加剧
市场认为,DeepSeek此次选择融资的另一个原因,与人才和市场竞争不无关系。
自R1模型取得突破性成功以来,DeepSeek一直没有发布新一代模型,而且这家初创公司最近也流失了一些明星研究人员。
其中,DeepSeek V3模型的主要贡献者罗福莉,近几个月加入了小米,领导其新成立的MiMo AI大模型部门。
同时,4月15日消息,智能纪元AGI独家获悉,DeepSeek核心AI研究员郭达雅日前已入职字节跳动Seed团队,继续负责模型研发工作,传薪酬待遇远高于DeepSeek。
上个月,郭达雅正式从DeepSeek离职,字节、阿里、百度等大厂均被传出接触这位90后大佬,而围绕郭达雅离职话题一度引发关注。
如今,通过筹集外部资金,DeepSeek 可以投入更多资金用于计算资源,以继续开发前沿AI模型,并可以支付更多薪酬给人才,以防止顶尖研究人员流失。
不过,从通用大模型向垂直领域深耕、从技术突破向商业落地,顶尖科研人才目前面临的最大课题在于:想做研究必须先想商业化,这相当“拧巴”。
而且,AI领域的竞争环境也发生了变化。SI模型正以前所未有的速度发展,而来自美国和中国的科技巨头凭借雄厚的财力,正对初创企业施加越来越大的压力。
这或许是促使DeepSeek改变了融资策略并开始筹集资金的原因之一。
据知情人士透露,目前一些美国风险投资家可能对投资DeepSeek有所顾虑。
怎么说呢。
说到底,DeepSeek的转折,从来不是梁文锋一个人的“理想妥协”,而是整个国产AI行业的缩影。
没有资本托底,再顶尖的技术也难以为继,再纯粹的理想也终将向算力、人才、竞争低头。
20亿融资或许能解DeepSeek的燃眉之急,却解不了“AGI理想”与“商业化生存”的矛盾。
曾经的AI黑马是否会沦为昙花一现?
梁文锋放下执念后,DeepSeek能否在巨头围剿中杀出重围?
答案,或许要等那个迟到的V4模型,给出最终回应。
毕竟在AI圈,理想不能当饭吃,但没有理想,又终究走不远。
当前DeepSeek面临巨大困境,AI模型长期不迭代意味着“技术掉队”,而且OpenClaw加速进展,对于AI公司来说,当前DeepSeek对行业面临巨大的不确定性,需要重新评估。
热门跟贴