当大家都习惯了遇事不决问豆包的时候,沉寂了很久的Deepseek,突然发布了最新版V4的预览版,一下就炸开了锅。
为什么这个发布万众期待?这个东西到底哪里变得更牛了?为什么很多人说,英伟达的黄仁勋担心的事还是发生了?
首先来讲是等太久了。国内跑步进入AI时代也不过一年半的时间,起点就是去年年初震惊全球的Deepseek发布,之后国内外的各种大模型雨后春笋,版本都迭代迭吐了,那反而Deepseek自己的更新却稀稀拉拉。甚至网上一度有说法,说是因为创始人梁文峰沉迷原神给耽误了。
另外,这次的V4版本性能算是对得起等这么久。专家模式能和美国的顶流模型像Claude,GPT,以及Gemini的主流版本打的有来有回,至少目前来看是这样。
但别忘了,Deepseek是开源模型,另外那几个都是闭源的。曾经开源和闭源的性能差距,类似李小冉去和流行天后比唱歌。
简单来讲,目前的Deepseek,算是全球开源模型里的顶流,部分性能更是不输顶级的闭源模型。
而这对我们普通人来说,这可是好事儿啊!
支持百万上下文长度。通俗来讲,就是:这个版本的Deepseek,更能记事儿了。
以前的很多大模型都有个通病,就是健忘。类似你经常去个饭馆,老板都跟你熟了,以后你每次去不用说老板都知道你的口味:不要葱,多放辣。可结果某天你去了之后老板突然一脸职业微笑:你好,请问你要吃点啥?
你以为和人有默契了,结果人家恢复出厂设置了。
这就是因为很多开源大模型上下文都有长度限制,内容一旦太长它们就会自己压缩,很多关键信息就会丢失。支持百万上下文,一直以来都是顶级闭源大模型的专属。要使用,得加钱!
而这次新版的Deepseek的标配,你直接丢给他一本几十万字的书、又长又复杂的合同、法律文书、论文、公司研报等等,哪怕是你和你女朋友几年的聊天记录,基本上都能一次读完,不断片,不失忆。
另外,新版的Deepseek专家模式,理论上来讲已经可以自己完成一整套工作流程,比如帮你安排行程收发消息做PPT搞数据分析,当前台是够呛,当助理那估计没什么压力。
总之,搞企业的尤其是中小企业,个体户,一人公司,搞科研的,搞投资的,搞咨询的,干脆普通用户,理论上都能有更好的体验。
更妙的是,这样的性能了,依然远远比国外的闭源模型便宜。
全球公认的最强编程模型Claude,百万词元调用量的价格是25美元,而DeepSeek是24人民币!
不过物美价廉,好像也已经是Deepseek的祖传艺能了。
有很多家人表示,不就是一个更好更便宜的AI大模型么,至于这么激动吗?
你以为这只是中国和美国之间的AI大战吗?有没有一种可能,真正的战场,其实是在芯片。
过去中外的大模型,几乎都依赖英伟达的算力芯片,和相应的CUDA工具。大模型性能再强,其实也就意味着给黄仁勋打工越狠,英伟达的护城河就会越深。
对中国人来说,尴尬的地方就在于,我们越是在那训练追赶AI,就越是在给别人的生态添砖加瓦。
很多人说我们用自己的芯片不行吗?
科技圈里有消息说,其实DeepSeek早就在拿华为昇腾芯片做训练了,但是,一度遇到了像稳定性不足、场景崩溃、速度达不到预期等等各种各样的问题,但没有经过官方正式确认,所以还不好说。现在摆脱英伟达,根本就没那么容易。
但至少,DeepSeek已经迈开了第一步。这次发布的V4版本,不但把测试权限交给了华为昇腾和寒武纪这些国产芯片,这还意味着他们就需要把大量的代码和各种资源从英伟达的CUDA迁移到华为的架构上。
这可能是DeepSeek的一小步,但很有可能是中国AI的一大步。模型再强,只要还是依赖别人的硬件和工具,咱们腰杆子肯定就硬不了。让咱们自己的模型,在自己的芯片、自己的工具、自己的生态上能稳定便宜地跑起来,哪怕过程一步三坑,也足够重要,也是特别值得的。
中美的AI竞争,表面看是模型大战,背后其实是芯片大战,最终是生态大战。芯片生态歇菜了,模型打得再热闹,也只是像放个烟花。
总结一下,Deepseek新版面世,理论上来看意味着,更多的中国人,无论过日子,还是生产力,都慢慢能用上高性价比的大模型。这对国产算力相关,以及中小企业,包括各种专业机构,尤其是能用AI节省成本的企业机构,都算是迎来机会了。
热门跟贴