经过数月的等待之后,DeepSeek V4可能很快就会与用户正式见面。
4月7日,有网友爆料,DeepSeek V4已经在部分用户中启动灰度测试。与之一起被爆料的是,这次在用户界面上已经有所呈现。
另一个网友则爆料,DeepSeek V4预计将在4月中下旬发布,自2月开始发布时间一再延期后,这一次恐怕是真的。
1
有用户打开DeepSeek的APP会发现,在对话界面顶部并排着三个选项:快速模式(default)、专家模式(expert)、视觉模式(vision)。
其中,快速模式是默认选项,其大概率是针对轻量级、响应快的模型。
而专家模式不支持文件上传,其被推测是更大参数、更深度的推理模型。
视觉模式是这次最大的创新变动。据网友爆料,2月那轮灰度测试可实现OCR的文本提取,而DeepSeek V4灰度测试则实现了vision 模式,其多模态能力或将实现C端落地。
这并不意外,按照此前爆料,梁文锋的研究方向,近半年来主要锁定了两个重点,一个是模型的视觉内容处理,另一个则是AI搜索。
而且近期梁文锋团队发布的论文,一篇论文提出条件记忆机制,另一篇则呈现优化Transformer记忆与长上下文瓶颈的成果。
由上可见,DeepSeek V4可能将在多模态、长期记忆、代码能力跃升等几个方面呈现其特点。
有网友表示,DeepSeek V4的架构可能达到Ultra-MoE 万亿级,总参数约为1.2万亿(MoE),每次仅激活320亿,上下文窗口100万tokens(≈4000页书),其将实现“文本+图像+音频+视频”的原生多模态特征。
2
DeepSeek V4可谓是千呼万唤,此前可能已经数次延期。
原本在今年1月份时,传出发布时间在春节期间,但当时没有发布。时间来到3月份,有消息称定在同月的十几号,可到了3月30日还没有发布。
最新的消息显示,DeepSeek V4将在四月中下旬与用户正式见面。
除了不断延期的发布时间,还有近期DeepSeek经历了数次的服务中断,其中在3月30日左右,其经历了一次大规模的服务中断。
有人推测上述服务中断现象,可能背后与DeepSeek V4灰度测试有关。
据The Information日前报道,发布时间延期主要原因是,DeepSeek与华为、寒武纪等国产AI芯片厂商进行合作,确保V4能在华为最新的昇腾(Ascend)芯片上流畅运行。
据了解,昇腾 950PR是华为3月发布的,搭载的是Atlas 350加速卡。其单卡算力被宣称是英伟达H20的2.87倍,不过其功耗(600W)大约是H20的两倍。
报道还透露一点,那就是DeepSeek V4发布前,未有给到美国芯片企业提供早期访问权限,而是开放给了华为和寒武纪等中国芯片厂商。
另外,The Information报道称,除了正版的DeepSeek V4,公司还开发了两个V4变体版本,能力侧重分别有所不同。
看来,DeepSeek V4可能真的要来了!
热门跟贴