新年的第一篇推文献给Deepseek,无他,国产大模型公司太争气了!
Deepseek不仅在元旦期间霸占了各大科技媒体头条,还统一了X、Reddit、FB等海外社交媒体江湖。
“Deepseek重新点燃了我对 AI 的狂热。模型智能以及它的成本低廉基本上让你可以将 AI 构建成你想要的任何东西,而不必担心成本。自从 chatGPT 问世以来,我就有一个 AI 视频游戏的想法,现在我终于觉得我可以做到了。”
一位关注AI应用的海外朋友在社交平台上写道。
到目前为止,V3版本的发布到今天已经整整过去一周了,但是,海内外对Deepseek的讨论热度不减。
大部分都是“备受震撼”“ 2025 年开源大型语言模型 (LLM) 领域的最大黑马”“好用”“免费”“理想主义的胜利”“国产大模型之光”这些正向评论。
其实从实际使用上来看,Deepseek未必有那么尽善尽美。
比如在编码方面,可能未必有Clude好用,又或者Deepseek的回复有时会陷入循环。甚至,如今的研究成果也会借鉴海外早期的开源模型数据。
但Deepseek的牛逼之处就在于,它化身引领者,改变了全球AI公司的游戏规则。
首先就是降低了大模型的运算量,一定程度上打破了芯片对大模型的桎梏。
OpenAI 创始团队成员Andrej Karpathy以Llama 3405B模型为例分析,该模型使用了30.8M GPU小时,而 DeepSeek-V3 看起来是一个更强大的模型,仅使用了2.8M GPU小时(计算量减少了约 11 倍)。
计算量的减少,就意味着,未来大模型训练可以不用那么多高规格芯片。所以,有媒体表示,DeepseekV3发布之后,英伟达最大的空头出现了。
略心酸的是,有些进步是被逼出来的,是在别无选择之后产生的客观结果。
为了阻止中国科技进步,美国从2022年9月开始禁止A100和功率更强大的H100芯片出口中国。
2023年10月,这份禁止名单中又增加了两款英伟达降低技术指标为中国市场专门设计的芯片A800和H800。
没办法,大模型训练需要消耗的算力太大了,而国内公司想买芯片又买不到,大家必须节约使用芯片,并在有限的芯片数量下完成大模型训练。
外媒曾经调侃道,大模型的公司不仅要有钱,还要跟英伟达的CEO黄仁勋搞好关系,不然买不到芯片。
英伟达高级研究科学家Jim Fan认为,资源限制是一件美好的事情。在残酷的 AI 竞争环境中,生存本能是取得突破的主要动力。其实指的就是这次DeepseekV3的创新。
当然DeepseekV3的出现不仅仅是打破了国产大模型公司买不到芯片的尴尬,还降低了大模型公司的资金门槛。
此前,有云计算专家说,1万枚英伟达A100芯片是做AI大模型的算力门槛。这都是钱啊~~~
以往训练一个相似数据体量的大模型可能起步就需要几千万美金。比如GPT-4的训练成本大约1亿美金,甚至未来的成本将高于10亿美金。
庞大的资金需求量,已经将进入AI大模型领域的公司做了最精准的筛选。手头没有几亿美金的储备,想要坐到大模型训练的牌桌上,几乎不太可能,因为烧钱训练会迅速拖垮一家公司。
但DeepseekV3此次的训练成本只用了550万美金,还不到Llama-3405B成本的十分之一。更确地说,就在如此“窘迫”的成本下,DeepseekV3不但没有烧钱,还略有盈利。
这是其他大模型公司连想都不敢想的。
成本降下来了,用户使用的价格也就降下来了。海外社交媒体上为DeepseekV3的免费而欢呼。
还有人在推特上表示,可能大家夸大了DeepseekV3的性能,相比4o和Claude也没有超越很多,但是,它速度快,而且超级便宜,用了好久才花了5美分,一个月省下200美金,不香么?
Deepseek每次出手都会引发一场大模型价格上的腥风血雨。这次V3版本推出后,人工智能的竞争也许不再关乎价格,而关乎性能。
也许你会问,其他国产大模型公司宣传和投流满天飞,为什么偏偏又是Deepseek平地出惊雷?
可能就是暗涌报道的那样,这是一次技术理想主义的胜利。当其他国产大模型公司被投资人催着要下载量,要用户量,要商业模式,要知名度的时候,Deepseek的一堆应届博士毕业生还在埋头搞科研实验。
我们不缺技术,只是缺少对创新的敬畏。
大家可添加16600043097,进AI新光年读者交流群,探讨各种AI视频工具的使用,交流行业信息与合作。商务相关问题请联系达哥,联系方式:18010023327
热门跟贴