来源:市场资讯
(来源:天数智芯)
4月24日,深度求索(DeepSeek)正式发布并开源新一代旗舰大模型DeepSeek-V4,同步带来两大重磅版本——1.6T参数的DeepSeek-V4-Pro与284B参数的DeepSeek-V4-Flash,全系标配百万token长上下文能力,开启大模型长文本普惠新时代。
模型发布当日,上海AI实验室DeepLink团队依托KernelSwift智能算子迁移系统,完成DeepSeek-V4核心算子在多元芯片的Day 0适配,天数智芯作为核心合作方,率先实现天垓训练芯片、智铠推理芯片对该模型的核心算子适配,以硬核技术实力彰显算力生态协同价值。
作为通用GPU领域领军者,天数智芯深耕“全栈自研+训推一体+云边端协同”技术路线,提升大模型与算力适配的效率及能力。此次DeepSeek-V4适配,并非简单的模型移植,而是联合DeepLink团队基于KernelSwift系统开展的全链路技术共创,从算子定制、编译优化到性能调优,实现“模型发布即适配落地”的突破。
KernelSwift作为大模型驱动的智能算子迁移系统,是破解芯片算子适配效率低、周期长痛点的关键支撑。传统算子适配往往需要数月周期,且依赖大量人工编码调优,而KernelSwift以高级抽象建模与自动算子生成技术为核心,将适配周期从数月压缩至小时级,为各类芯片提供“开箱即用”的高性能算子支持。
在公开数据集Kernelbench上,KernelSwift实现SOTA级别表现,可自动生成覆盖语言大模型、科学大模型的高性能算子,更基于深度学习编译器(DLCompiler)构建全链路支撑。
此次适配中,天数智芯与DeepLink团队聚焦DeepSeek-V4核心技术特性,针对MoE架构、稀疏注意力、FP8混合精度等关键模块,依托KernelSwift开展定制化算子开发与深度优化。双方技术团队协同攻坚,充分发挥天数智芯芯片产品的算力密度、带宽优势,以及低时延、高吞吐推理能力,实现模型发布与算力资源适配同步落地。
值得关注的是,本次适配实现了算子性能与兼容性的双重突破。基于KernelSwift自动生成的算子,在天数智芯芯片上实现高效运行,核心算子性能对标国际主流芯片水平,同时算子平均通过率达约80%,保障模型稳定可靠运行。适配代码已同步开源至DeepLink-org代码仓,面向全球开发者开放,助力构建开放共享的算力生态。
天数智芯始终秉持生态共建理念,积极加入“模芯生态创新联盟”,与芯片伙伴协同联动,推动大模型与算力资源的深度融合。此次联合DeepLink团队基于KernelSwift完成DeepSeek-V4核心算子的Day 0适配,既是天数智芯技术实力的集中体现,也是算力生态从“碎片化”走向“协同化”的重要里程碑。
当前,大模型技术正加速向各行业渗透,高质量算力已成为产业发展核心命题。未来,天数智芯将持续深化与DeepLink团队、KernelSwift系统的技术合作,聚焦更多主流大模型适配优化,迭代升级天垓、智铠系列芯片产品,完善全栈技术生态;同时坚持开放共赢,携手产业链上下游伙伴,推动算力资源在更多场景落地应用,为中国AI产业高质量发展注入强劲算力支撑。
热门跟贴