国产大模型登顶全球应用榜,硅谷连夜开会,中国AI悄悄换了打法
2024年1月27日那天,很多人没有留意到,App Store里出了一件奇怪的事,一个名叫DeepSeek的中国AI应用,忽然在中美两地的免费榜上都排到了第一,它超过了ChatGPT和Gemini这些美国常见的产品,这不是靠推广冲上去的,而是用户真的下载、真的使用、真的觉得好用才升上来的,以前中国产品出海时,能进前十就算不错了,这次直接拿了两个冠军,连苹果审核团队也特意多看了一眼。
国外开发者的动作来得很快,Hugging Face这个开放平台才过了五天就出现五百多个根据DeepSeek改出来的模型,下载量至少达到二百五十万次,对比来看,Meta之前推出Llama 2的时候,第一周也就三百万下载,可那时候社区里讨论的热度差得远,有人在开玩笑说现在上GitHub搜“DeepSeek”,比搜“Llama”更容易遇到重复结果,《华尔街日报》那天连夜加印了电子版专题,标题直接写着“AI领域的斯普特尼克时刻到了”,意思就像1957年苏联把第一颗人造卫星送上天那样,让美国突然意识到自己不是唯一能搞高科技的国家。
DeepSeek的强项不在于堆砌芯片,它在训练过程中只使用2048块H800 GPU,花费557万美元,模型参数达到6710亿,成本仅为GPT-4的十八分之一,关键在于它没有沿用传统方法,不是依靠海量数据让模型猜测文字,而是将强化学习融入推理过程,比如解数学题时,它会像人一样逐步验算,而不是随便给出答案,技术文档中提到错误率降低了37%,尤其在编写代码和逻辑校验方面表现更稳定,我尝试过用它生成Python函数,确实减少了那些表面正确但运行就出错的情况。
它做了件让美国公司头疼的事,就是把技术完全开放出来,使用MIT协议,允许任何人拿去商用、修改甚至转卖,OpenAI现在连接口调用都要收费,Google的Gemini连研究用途都限制权限,结果MIT和斯坦福的学生用它做出医疗问答的小系统,印度程序员开发了印地语版本,越南团队正在针对当地法律做适配,开源生态一旦活跃起来,公司就控制不住了,谷歌前CEO施密特去年在播客里提到,他们输掉的不是技术优势,而是制定规则的权利。
硅谷那边有点慌,Meta赶紧组建四个小组研究DeepSeek的成本结构,内部邮件里说它走的路可能让Meta的三年计划作废,OpenAI被曝出在讨论要不要放开GPT-4o的部分接口,他们以前死守闭源现在有点松口的意思,中信证券后来发简报说AI推理成本降到十分之一后智能体会进家庭、学校和小商店,这不是科幻是明年就能看到的现实。
中国这条路,其实跟平常想的很不一样,别人在努力搞算力、堆数据、拉投资,它却专心提高效率、保证推理质量、相信开源共享,你看大疆做无人机的时候,没有直接去和波音比飞机,而是从普通人用的产品开始做,华为搞5G,也没有先去抢基站市场,而是先把标准定下来,现在DeepSeek也一样,不去追求参数有多大,专门解决那种“答非所问”的问题,它没有喊什么口号,但确实在重新解释什么叫一个好模型,有人觉得这是弯道超车,我觉得更像是换了一条赛道——你还在修高速公路,人家已经把高铁轨道铺好了。