图片由AI生成
出品|搜狐科技
作者|梁昌均
编辑| 杨 锦
最近,业内期待了很久的DeepSeek-V4发布,国产AI芯片迅速掀起适配潮。
华为在发布当天迅速发文称,通过双方芯模技术紧密协同,实现昇腾超节点全系列产品支持V4模型。
搜狐科技注意到,除了华为昇腾,还有寒武纪、海光信息、摩尔线程、沐曦股份、昆仑芯、平头哥、天数智芯、清微智能、曦望等共计10款主流国产AI芯片均已完成对V4的适配。
智源众智FlagOS技术团队最近因此变得异常忙碌,作为打造支持多种AI芯片的开源统一生态的技术团队,其在V4发布后就迅速完成了和9家国产AI芯片的适配。
4月29日,搜狐科技独家对话了北京智源人工智能研究院副院长兼总工程师林咏华。
她认为,V4核心突破在于系统优化,从硬件优化和架构创新层面,继续大幅降低模型所需要的计算和显存,DeepSeek在持续探索最极致的降本方法。
此次国产芯片和V4的适配,多数企业包括FlagOS都宣布Day0适配,可谓快速。她告诉搜狐科技,要做到Day0适配,需要提前做大量技术准备工作。
在适配过程中,技术团队需要解决在多款芯片上的统一算子替换、精度转换、显存限制等基础技术问题,更重要的是要进行精度对齐。
从适配效果看,林咏华表示,内部测试显示,FlagOS团队在国产AI芯片上适配的V4 Flash模型,推理效果已基本对齐DeepSeek发布的原版模型。
更关键的是,模型厂商的态度也发生了变化。今年之前,模型厂商主动适配国产芯片的意愿并不高,重心依然围绕英伟达。今年以来,国内大模型和国产AI芯片则更像是一场双方奔赴。
林咏华认为,现在国内模型厂商适配意愿提升,主要得益于推理市场算力需求提升的带动。
“即便模型性能卓越,若算力支撑不足、难以满足用户需求,用户仍将转向替代方案。正因如此,今年模型厂商普遍呈现出更积极的姿态,主动推进甚至提前布局与芯片厂商的适配工作。”
国产芯片的进步不止于推理层面,在训练领域同样取得了关键突破。
林咏华透露,当前基于千卡规模的国产芯片集群,已基本能够复刻出与英伟达芯片相当的训练效果。
她所在的技术团队已完成对多种AI芯片、异构混合训练方案在多种模型上的验证,覆盖了端到端从头预训练这一严苛场景,但万卡级国产集群的稳定性和表现仍有待进一步验证。
林咏华认为,这背后的挑战在于行业对国产芯片的信心,同时面临跨芯迁移难题。
不过,通过国内外多个技术团队在软硬件开源生态的合作和共建,当下以FlagOS为代表的国内AI计算生态发展已经有了很大的进步。林咏华提到,这主要体现在三个层面。
一是实现从手写算子到AI自动生成算子的跨越,二是实现从单芯片专用语言到跨芯片统一编程语言的突破,三是从单芯片适配到Day-0多芯片同步发布的能力跃升。
未来国产芯片如果想要继续在大模型领域实现更好的适配,林咏华认为,还需在开发者习惯与社区生态的迁移,以及在编译优化、算子库覆盖率、硬件特性利用等继续投入,打通性能的“最后一公里”。
同时,还要发挥生态的网络效应。“CUDA的优势不仅是技术,更是大家都在用。当开发者发现用各种AI芯片跑模型都很简单时,生态才会真正发展起来。”
以下是对话精编:
搜狐科技:此次DeepSeek-V4发布,最核心的创新和进步是什么?
林咏华:DeepSeek-V4目前是开源模型第一梯队,甚至是最顶尖的,对整个开源社区和产业是一份很重要的礼物。随着VLLM 和 SGLang两个推理引擎推出正式版本支持之后,将推动更多落地使用。
它核心突破是在系统优化上,不只是硬件优化,而是从模型架构创新层面,继续大幅降低模型所需要的计算和显存,在降低推理成本上是极致的探索和优化。
DeepSeek寻求的是如何用更少算力、更低成本,去追求更高的智能,希望在这条路上探索最极致的方法,未来应该还有更多可能和空间把成本做得更低。
搜狐科技:V4发布后似乎没有V3和R1那般惊艳,DeepSeek这次没有复现自己的“DeepSeek时刻”,您怎么看?
林咏华:R1去年初发布,是首次有比较领先的顶级大模型做到了GPT-o1具备的推理思考的能力,并直接开源出来。这是从无到有,把国内开源带上了新台阶,所以市场反应很大。
但过去一年,国内其他大模型企业激烈竞争,把大众也拉到了比较高度使用的状态。这次V4虽然在继续往上走,但以如今大模型的强大能力,外界已经很难对它的进步进行准确“度量”了。
此外,这次还没有出现当初千问模型蒸馏R1的工作,如果都以当下的284B或1.6T的巨大模型尺寸进行部署,对硬件的需求不低。所以目前看到的更多是互联网大厂,如腾讯云等部署了V4作为API服务,但广大的企业用户私有化部署,还未能大量出现。
搜狐科技:最近斯坦福报告说国内距国外最前沿模型只有2.7%的差距,这是在V4发布前,V4发布后差距有进一步缩小吗?
林咏华:DeepSeek评估V4和国外最新的顶尖闭源模型还有3到6个月的差距,比较客观。目前评测追求的还是模型的绝对智力,但在产业落地的时候,现在开始看重的是能否高效完成任务。既衡量智力,又要衡量Token效率,这种综合衡量还缺乏权威的评测。
搜狐科技:V4发布后,华为、寒武纪,包括智源FlagOS等都宣布Day0适配,为什么能做到这么快?解决了哪些关键挑战?
林咏华:对于V4这种量级的模型,整个架构有很多变化,所以提前需要做大量的技术准备工作,目标是要让这个模型能够在很多AI芯片上跑起来,里面有很多基础的技术问题要解决。
第一,要将DeepSeek的原版算子用FlagOS的技术栈全部替换,从而保证之前已经适配过我们技术栈的芯片都能跑这些算子。
第二,要解决模型对硬件的精度依赖问题。DeepSeek这次采用的是FP4和FP8混合精度,而国内上市的芯片多数都是以BF16为主,必须转换成这些芯片所能支持的精度。
第三,要解决显存并行限制的问题。国内主流显卡基本是32G或64G显存,需要张量并行大于8份才能放得下,但V4最多切8份,所以就需要重新做并行策略的切割。
这些都是在工程上、技术上怎么让它跑起来,后面更重要的要对齐精度。我们端到端测试了所有芯片,把精度误差控制在5%以内,然后才发布开源出来,让大家能下载代码,开箱即用。
搜狐科技:国产芯片适配V4后,您这边内部测试或业内反馈的效果如何?
林咏华:我们在Flash版完整做过测试,推理效果基本跟原版对齐。马上VLLM和SGlang就会推出正式版本支持,我们将重新去适配国产芯片,这样吞吐量会明显上升,就可以跑得更快。
搜狐科技:最近除了V4,Hy3.0、MiMo-V2.5-Pro等都在和国产芯片适配,原来这种情况并不多见,您怎么看这种变化?
林咏华:原来都关注英伟达,模型厂商没有很大动力跟国产芯片适配。但今年很大的变化是,智能体拉动国内大模型的部署使用需求大幅上升,普遍需要更多的算力进入推理市场。
如果模型厂商手上没有更多的算力资源,就很难支撑它去做更多的推理任务,吸引更多的用户。即便模型性能卓越,若算力支撑不足、难以满足用户需求,用户仍将转向替代方案。正因如此,今年模型厂商普遍呈现出更积极的姿态,主动推进甚至提前布局与芯片厂商的适配工作。
搜狐科技:现在适配更多聚焦在推理部署层面,那训练侧国产芯片进展如何?卡点是什么?
林咏华:在千卡量级,基于FlagOS在国产芯片上去做训练,无论是语言模型还是多模态模型,都没问题,跟英伟达比完全能够对齐。
我们做了很多的实验完成了多轮的验证。这些过程的验证是很昂贵的,如果万卡级别的端到端验证,那就更昂贵了。
这也是为什么当下还看不到很多企业用国产万卡集群去训模型。如果没有对照过英伟达的万卡,是否放心在国产万卡上去做?
所以挑战在于,第一还是信心的问题,验证需要大量资金进行陪跑验证;第二在于跨芯迁移。
过去这么多年,产业都是用英伟达CUDA作为数值对齐的标准。那么使用某款非英伟达芯片训练出来的模型,是否可以顺利迁移到其它芯片上?这里面既有精度对齐的难题,也有跨芯技术栈的难题。
不过由于FlagOS本身已经在训练、推理上做到了多种AI芯片统一了编译器、算子库、框架接入等。所以跨芯的软件问题已经被解决了,剩下主要还是精度对齐的挑战。
搜狐科技:两年前您说国内算力生态要在架构创新、底层软件、编译器等层面补课,过去两年有哪些进步?
林咏华:我认为有三个关键进步。第一,从手写算子到AI自动生成算子的跨越。两年前,移植模型到新芯片,需要花数周手写适配算子,现在只需用自然语言描述需求就能自动生成、验证、优化算子,大大缩短开发周期。
第二,从单芯片专用语言到跨芯片统一编程语言的突破。原来每换一颗芯片就要学一套新语言、新工具链,但现在通过兼容标准,让开发者写一套代码,就能在所有芯片上跑出好性能。
第三,从单芯片适配到Day-0多芯片同步发布的能力跃升。像这次V4发布当天,我们就完成了10款芯片的同步适配,行业内跨芯片适配时间已从原来的数周缩短至数天。
搜狐科技:国内算力生态如果想打造类似CUDA的生态,还要在哪些领域继续努力?
林咏华:一是开发者习惯与社区生态的迁移。CUDA拥有十几年积累的海量代码、文档、教程和开发者习惯,同时不同模型在算子生成任务上的能力差异明显,需要更多开源模型和工具来降低多元芯片的使用门槛。
二是还需要在编译优化、算子库覆盖率、硬件特性利用等方面持续投入,打通性能的“最后一公里”。
三是要发挥生态的网络效应。CUDA的优势不仅是技术,更是大家都在用。当开发者发现用各种AI芯片跑模型都很简单时,生态才会真正发展起来。
运营编辑 |曹倩审核|孟莎莎
热门跟贴