01 价格战第一枪的意外打响

DeepSeek V2模型发布后,引发了大模型价格战,创始人梁文锋表示并非有意成为行业“鲶鱼”,只是按成本定价,没想到价格敏感度如此之高。智谱AI等跟进降价,梁文锋认为智谱AI降的是入门级产品,字节才是第一个真正跟进的,触发了其他大厂降价。DeepSeek降价并非为抢用户,而是探索下一代模型结构降低成本,且认为API和AI应普惠、人人可用。

02 真正差距在于原创与模仿

DeepSeek V2让硅谷惊讶,是因为中国公司以创新贡献者身份加入游戏。梁文锋指出,中国公司过去习惯跟随,缺乏创新信心和高密度人才组织有效创新的能力。大模型是重投入游戏,DeepSeek选择只做研究探索,是因为想参与全球创新浪潮,推动生态发展,而非趁机赚钱。

03 幻方做大模型的初心与目标

幻方决定下场做大模型,与量化金融无直接关系,是出于好奇心驱动。梁文锋表示,要做通用人工智能AGI,语言大模型是通往AGI的必经之路。他们专注大模型本身,不做垂类和应用,而是做研究探索,想验证人类智能本质与语言的关系等猜想,也对GPT4的待解之谜进行揭秘。

04 万卡储备背后的好奇心

DeepSeek在2021年就储备了1万枚GPU,梁文锋解释,从最早的1张卡逐步发展到万卡,是出于对AI能力边界的好奇。研究员对算力渴求无止境,想做更大规模实验。他们对算力的储备并非为量化投资,而是想搞清楚金融市场更简洁的表达方式等。

05 V2模型研发的本土人才力量

DeepSeek V2模型的研发团队并非海外挖来的顶尖人才,而是本土的Top高校应届毕业生、实习生等。梁文锋认为,前50名顶尖人才虽可能不在中国,但中国也能自己打造这样的人才。MLA创新最早来自一个年轻研究员的个人兴趣,从想法到落地历经漫长过程。

06 创新的偶然性与信念

梁文锋觉得创新首先是个信念问题,硅谷有创新精神是因为敢。国内对前沿创新曾缺乏信心,但创新需要自信,年轻人身上这种信心更明显。DeepSeek的管理方式自下而上,自然分工,当idea有潜力时会自上而下调配资源。

07 对未来大模型竞争格局的洞察

梁文锋认为大厂有优势,但若不能很快应用,也不一定能持续坚持。头部创业公司技术扎实,但面临商业化难题。他觉得大模型终局会是专门公司提供基础模型和基础服务,有长链条专业分工,更多人在其上满足社会多样化需求。

08 招聘进展与创新组织的打造

DeepSeek初始团队已集结,仍需更多人加入。梁文锋表示,不刻意去海外挖人,更看重基础能力、创造性、热爱等。幻方招人看能力不看经验,核心团队多为应届和毕业一两年的人。创新组织需少干预管理,给自由发挥空间和试错机会,创新是自己产生的,非刻意安排或教出来。

09 对原创式创新的坚持与乐观

梁文锋认为中国产业结构调整会更依赖硬核技术创新,经济下行、资本冷周期未必抑制原创式创新,当人们发现赚快钱靠运气,会更愿做真正创新。他以自己在广东五线城市长大的经历为例,说明观念会随时代改变,硬核创新会越来越多,只是需要事实和过程。

10 开源与未来规划

DeepSeek不会闭源,梁文锋认为先有强大技术生态更重要。短期内无融资计划,面临问题是高端芯片被禁运。他们不做应用是因为当前是技术创新爆发期,长远希望形成生态,让业界直接使用技术和产出,只负责基础模型和前沿创新。

11 竞争与大模型创业公司的终局

梁文锋表示,创业公司与大厂竞争的新解法未看到,大厂有现成用户但现金流业务也是包袱。他认为DeepSeek之外的6家大模型创业公司可能活下来2到3家,那些自我定位清晰、能精细化运营的更有机会,有价值的东西不会消失,会换种方式存在。

12 创新的精神奖赏与持续性

梁文锋觉得搞清猜想是否事实很兴奋,创新是昂贵低效的,经济发展到一定程度才出现。他以程序员开源社区疯狂贡献为例,说明存在精神奖赏。虽然不是所有人都能疯狂一辈子,但大部分人年轻时可无功利目的投入做事。