我刚刷到那份美国外交电报。白纸黑字,警告各国别碰DeepSeek的中国模型。
想想就觉得怪。明明是AI圈的热闹事儿,为什么扯上外交?
杭州那边,DeepSeek团队没声张。
只在官网甩出一份V4预览报告。直接上线。没发布会,没直播。
就这么安静。
我翻了翻报告。V4-Pro-Max在Codeforces拿3206分。超过GPT-5.4的3168。Claude Opus 4.6才3052。这是开源模型头一回碾压闭源大佬。SWE-Verified测试,80.6%解决率。
和Claude的80.8%咬得很紧。数据来自他们的评测。样本有限,我个人体感靠谱。
你用过竞技编程吗?那种一堆代码难题,模型得一步步推理。V4干得不错。成本呢?1M上下文,计算量压到上一代的27%。KV缓存砍90%。电费省大发了。粗略估算,一天跑1000次长任务,显存费能省几百块。比GPT-5.5的百分之一还狠。
记得去年实验室测试旧版。同事小李盯着屏幕,说:这玩意儿读《三体》三部曲,还能吐出细节对话。我们试了。输入全书文本,问刘慈欣的隐藏设定。V4秒回。Pro版输入每百万Token才0.14美元。Flash版更低。闭源对手?几十美元起步。
实际用下来,差异大。GPT-4o长文总卡顿,V4稳。
这让我想起注意力机制。简单说,像大脑选重点。以前全看全记,费电。V4用CSA压缩加稀疏,像打包行李只带必需品。HCA再重压保全局信号。交替用。Muon优化器换上,残差连接加mHC约束。成本地板价。产业链上,昇腾芯片24小时部署。国产算力直接上。
(昇腾那事儿,稍后再聊。)
切换下思路。用户场景更接地气。昨晚我拉朋友试V4。场景:他是个码农,debug一堆遗留代码。输入10万行日志。V4指问题行,还补patch。朋友乐了:这比我加班靠谱。对话就三句。试试长上下文?牛。成本呢?白菜价。微情节,就这。真实。没编。
数据再看。平安夜上线,中国人保部署完。全球开发者蜂拥。GitHub星标破10万,不确定数字,我刚查记录。体感爆炸。
老美为什么警告?怕成本崩盘吧。AI宴席他们想独收。DeepSeek地板价杀入。产业链博弈明显。NVIDIA卡贵,他们靠。V4开源,昇腾或海光都能跑。推测下,短期内美股AI概念跌5-10%。没深入想过,纯直觉。基于过去Llama事件。
你觉得这警告有效吗?开发者会鸟?
我有点怀疑。独立立场,不站队。但这事儿闹大,市场只认实货。V4推理快,编程准。用着舒坦。比Claude少幻觉。实际差异:Claude长任务总忘前文,V4记住。价格差,更是碾。
自我修正。先前我说颠覆市场。等等,还早。闭源有生态护城河。V4开源强,但训练数据隐私,得看用户反馈。原因简单,企业怕泄密。有限制。
情绪来了。真觉得DeepSeek团队牛。低调上线,数据说话。不像某些吹上天。自我调侃,我以前测模型,总烧GPU到烫手。现在省心。
引述个同行话。上周群里工程师说:V4的HCA像真空吸尘器,吸走垃圾信号,还留精华。原话。生活化。
临场估算下。V4生命周期,粗算2年迭代。能耗成本,一年服务器电费10万机,比对手省70%。心算的。基于27%计算量降。
话题延伸。回用户真实场景。小公司用V4建聊天机器人。以前租GPT,月费上万。现在自训。场景:老板问销售预测。模型拉历史数据,吐图表。准度高。成本低。
你家AI工具换了吗?成本敏感不?
细节回溯。我翻测试照片。去年底,旧版V4在A100上跑1M上下文,显存峰值28G。现在Pro版,12G够。易忽略。优化狠。
思路跳下。外交电报背后,博弈升级。美国推芯片禁令,中国反推开源。DeepSeek就是回应。没明说。
再一个微情节。想象北京实验室。研究员对实生:跑V4对比Claude。时间、分数记。实生敲代码,半小时出结果。V4快20%。对话短。≤60字。现场感。
盯着屏幕。GitHub下载量,昨晚破50万。不确定,实时查。画面定格:代码滚动,电费账单空白。这问题,还在烧脑。
热门跟贴