刚刚，DeepSeek开始频繁更新：Tile Kernels、DeepEP V2|deepseek|kernels|tile|代码库|开源模型|更新|路由

机器之心编辑部

就在刚刚，DeepSeek 的 GitHub 开始了频繁更新，上线开源了一个新的代码库Tile Kernels，同时并对 DeepEP 代码库进行了更新，上线了DeepEP V2。距离上次 DeepSeek 悄悄更新 Mega MoE、FP4 Indexer 还不到一周。

Tile Kernels

链接：https://github.com/deepseek-ai/TileKernels

据介绍，Tile Kernels 是为 LLM 操作优化的 GPU kernels，是用 TileLang 构建的。而 TileLang 是一种用于在 Python 中表达高性能 GPU kernels 的领域特定语言，具备易迁移、敏捷开发和自动优化等特性。

Tile Kernels 的性能非常强悍，正如 DeepSeek 写的那样：「本项目中的大多数 kernels 在计算强度和内存带宽方面都已接近硬件性能上限。其中部分已经在内部训练和推理场景中投入使用。不过，它们尚不代表最佳实践，我们也在持续改进代码质量和文档。」

代码库的介绍信息不多，然而字里行间「剧透」了 DeepSeek 下一代模型底层的架构创新路线。

下面是 Tile Kernels 的一些具体特性：

门控机制：用于 MoE 路由的 Top-k 专家选择与打分
MoE 路由：Token 到专家的映射，融合的扩展 / 归约以及权重归一化
量化（Quantization）：支持 per-token、per-block、per-channel 的 FP8/FP4/E5M6 转换，并融合 SwiGLU + quantization 操作
转置：批量转置操作
Engram：Engram gating kernels，融合 RMSNorm、前向 / 反向传播以及权重梯度归约
Manifold HyperConnection：超连接 kernels，包含 Sinkhorn 归一化以及 mix 的拆分与应用
Modeling：高层 torch.autograd.Function 封装，将底层 kernels 组合为可训练层（engram gate、mHC pipeline）

EPv2：更快的 EP、并支持 Engram/PP/CP