天数智芯 × KernelSwift：深度适配 DeepSeek-V4，共筑高效算力生态|deepseek|kernelswift|天数智芯|新模型|算子

来源：市场资讯

（来源：天数智芯）

4月24日，深度求索（DeepSeek）正式发布并开源新一代旗舰大模型DeepSeek-V4，同步带来两大重磅版本——1.6T参数的DeepSeek-V4-Pro与284B参数的DeepSeek-V4-Flash，全系标配百万token长上下文能力，开启大模型长文本普惠新时代。

模型发布当日，上海AI实验室DeepLink团队依托KernelSwift智能算子迁移系统，完成DeepSeek-V4核心算子在多元芯片的Day 0适配，天数智芯作为核心合作方，率先实现天垓训练芯片、智铠推理芯片对该模型的核心算子适配，以硬核技术实力彰显算力生态协同价值。

作为通用GPU领域领军者，天数智芯深耕“全栈自研+训推一体+云边端协同”技术路线，提升大模型与算力适配的效率及能力。此次DeepSeek-V4适配，并非简单的模型移植，而是联合DeepLink团队基于KernelSwift系统开展的全链路技术共创，从算子定制、编译优化到性能调优，实现“模型发布即适配落地”的突破。

KernelSwift作为大模型驱动的智能算子迁移系统，是破解芯片算子适配效率低、周期长痛点的关键支撑。传统算子适配往往需要数月周期，且依赖大量人工编码调优，而KernelSwift以高级抽象建模与自动算子生成技术为核心，将适配周期从数月压缩至小时级，为各类芯片提供“开箱即用”的高性能算子支持。

在公开数据集Kernelbench上，KernelSwift实现SOTA级别表现，可自动生成覆盖语言大模型、科学大模型的高性能算子，更基于深度学习编译器（DLCompiler）构建全链路支撑。

此次适配中，天数智芯与DeepLink团队聚焦DeepSeek-V4核心技术特性，针对MoE架构、稀疏注意力、FP8混合精度等关键模块，依托KernelSwift开展定制化算子开发与深度优化。双方技术团队协同攻坚，充分发挥天数智芯芯片产品的算力密度、带宽优势，以及低时延、高吞吐推理能力，实现模型发布与算力资源适配同步落地。

值得关注的是，本次适配实现了算子性能与兼容性的双重突破。基于KernelSwift自动生成的算子，在天数智芯芯片上实现高效运行，核心算子性能对标国际主流芯片水平，同时算子平均通过率达约80%，保障模型稳定可靠运行。适配代码已同步开源至DeepLink-org代码仓，面向全球开发者开放，助力构建开放共享的算力生态。

天数智芯始终秉持生态共建理念，积极加入“模芯生态创新联盟”，与芯片伙伴协同联动，推动大模型与算力资源的深度融合。此次联合DeepLink团队基于KernelSwift完成DeepSeek-V4核心算子的Day 0适配，既是天数智芯技术实力的集中体现，也是算力生态从“碎片化”走向“协同化”的重要里程碑。

当前，大模型技术正加速向各行业渗透，高质量算力已成为产业发展核心命题。未来，天数智芯将持续深化与DeepLink团队、KernelSwift系统的技术合作，聚焦更多主流大模型适配优化，迭代升级天垓、智铠系列芯片产品，完善全栈技术生态；同时坚持开放共赢，携手产业链上下游伙伴，推动算力资源在更多场景落地应用，为中国AI产业高质量发展注入强劲算力支撑。