昨晚美股市场突遭猛烈抛售

打开网易新闻 查看精彩图片

有人讲外界关注中国六代机成功首飞传闻,被中国的六代机吓到了。

有人讲是四川舰下水,意味着中国航母和类航母的巨大优势,中美在最高军事技术的斗争中,中国取得了压倒性胜利。

有人讲是被中国宇树的机器人震撼了(而波士顿机器人被日本软银收购后又被转卖给了韩国现代)。

其实上面这些都不是主要原因

真实情况是号称AI界的拼多多!国产AI大模型DeepSeek-V3版本正式发布

打开网易新闻 查看精彩图片

它不仅便宜,而且完全开源,仅需2000张GPU计算卡,两个月的训练时间就匹敌了美国OpenAI公司花费数百倍成本的最先进大模型GPT-4o,训练成本仅556万美元

于是 这对大多数美国人的震惊程度真的不亚于中国六代机领先美国首飞,特别是那些对武器装备不感兴趣的老外们,他们把这件事称为“斯普尼特时刻”,这对美国经济和科技圈的影响也远远大于六代机首飞。

打开网易新闻 查看精彩图片

其实这事真的挺震撼的,我们一个国产大模型能在世界上大杀四方。

不仅训练成本比国外一众大模型低的离谱,效果还出奇的好。

具体有多强呢?

DeepSeek V3 是一个6710亿参数的开源大模型。

作为对比,我们熟知的阿里开源的 Qwen 2.5 系列最大的模型参数量是720亿

Meta开源的 Llama 3.1 系列最大的模型参数量是4050亿。

重点来了,DeepSeek V3 在参数量如此巨大的情况下,只用了2048块 H800 GPU,花费了仅仅550万美金左右的训练成本,要知道,Llama 3.1 的训练成本是 DeepSeek V3 的11倍。

而且,DeepSeek V3 在多个评测成绩排名上,不仅超越了 Qwen 2.5 和 Llama 3.1,甚至还能和最顶尖的闭源模型 GPT-4o 和 Claude-3.5-Sonnet 打打排位。

打开网易新闻 查看精彩图片

简直强到离谱。

OpenAI可是烧了几个亿才烧出 GPT-4o 这样逆天的模型,而 DeepSeek 只花了区区 550万,零头都不到。

这还没完,DeepSeek 不仅把模型毫无保留地开源了,还发布了一份53页的技术报告,所有的细节掰开揉碎了给你讲清楚那种,生怕一众友商们学不会。

打开网易新闻 查看精彩图片

因为以前从来没有论文,能把大模型的秘密解释得这么清楚。OpenAI弄出东西了,但是论文根本没说细节,云山雾罩的,背离了业界的开源传统。

现在很多人以为美国干出了什么黑科技,其实不是,论文说的很清楚,就是这么弄出来的。

DeepSeek没有选择「1→10」而逆向选择了「0→1」,其提出了一种崭新的MLA(一种新的多头潜在注意力机制)架构。

打开网易新闻 查看精彩图片

也正是这种独特架构,其把显存占用降到了过去最常用的MHA架构的5%-13%。

同时,它独创的DeepSeekMoESparse结构,也把计算量降到极致,所有这些最终促成了成本的下降,宣布了行业震惊的定价方案——API定价为每百万tokens输入1元、输出2元,价格显著低于当前市场上的其他同类产品。

套用QLoRA一作大佬的话说,这模型简直“优雅”到家了!

打开网易新闻 查看精彩图片

然而更抽象的是,如此厉害的大模型,竟然不是互联网科技巨头研发的,而是来自金融领域的头部量化——幻方量化。

你看看国内做量化的,竟然能对模型训练的资金控制这么严,硬生生逼出来一个新一代模型了,远超一众大举投入数百亿的互联网公司

几乎所有投资者圈层都在问:幻方De­e­p­s­e­ek v3只用了2048卡的H800,训练两个月就完成了。你们公司买了10万张卡,单集群万卡,都搞出什么成果来了?有人质疑Op­e­n­AI干什么去了。

然后今天这些机构,大资金跑的比谁都快。

因为在 DeepSeek V3 发布之前,所有人都以为大模型要做到顶流,一定要堆参数,堆GPU,大厂的军备竞赛变成了谁拥有最多的GPU,谁就是王者的氪金游戏。

而 DeepSeek V3 告诉大家,在人工智能时代,我们仍然要比智慧,比创新,不是谁烧的钱多,谁就会赢得一切。

假如DeepSeek V3 模型的训练这么节省显卡,且数据是真实准确的,那么意味着市场上的算力GPU卡已经过剩,英伟达卡在未来几年的出货量将会断崖下降。

如果大家有兴趣的话,可以去他们官网试着玩一玩。

DeepSeek V3体验网址:https://chat.deepseek.com/

看到这里,不少网友可能就会发出感叹:怪不得炒股赚不到钱,原来自己做交易的对手竟然是电脑,论计算,普通人怎么比得过电脑?

还有网友直接将其比作是:核动力镰刀。

打开网易新闻 查看精彩图片

不过,幻方量化此前曾多次澄清,探索AGI并不是用来炒股,是做 GTP 相关的大模型,与金融无关。

相反,正是由于2024年10月,监管政策加近期市场环境的变化,幻方认为中性量化策略不赚钱,逐步降低仓位,缩减私募规模至200~300亿。如下新闻记录。

打开网易新闻 查看精彩图片

不搞量化了,这么多卡用来干啥呢?

于是,幻方的deepseek大模型横空出世。

目前老美的科创能力还是很坚实和领先的。咱这边局部赶上了一些。但还有差距。

正如DeepSeek创始人梁文峰所说:「中国也要逐步成为贡献者,而不是一直搭便车。」