2500星项目把残差连接拆了！Transformer每层能"挑"|transformer|新论文|残差连接|算子

GitHub上有个叫Attention Residuals的项目，两周攒了2500星。它不是新模型，而是给Transformer做了个小手术——把用了7年的残差连接（Residual Connection）换成了注意力机制。这事儿听着像学术炫技，但MoonshotAI放出来的数据挺硬：同样算力下，模型能更深、训练更稳。

残差连接是什么？简单说就是每层输出都"叠"到总账上，权重固定为1。层数一多，早期信号就被稀释成噪声。这是PreNorm架构的老毛病，业内叫"隐藏状态爆炸"。

AttnRes的解法很直接：每层不再被动累加，而是主动"看"前面所有层，用softmax决定采信谁。公式就一行，但改的是Transformer最底层的加法逻辑。

正方：为什么该换

标准残差的问题，做过大模型训练的人都懂。

层数堆到96层、128层之后，梯度传播路径太长。早期层的特征被后期层反复覆盖，模型其实是在"遗忘"而非"积累"。MoonshotAI的论文里有个实验：在同等深度下，AttnRes的验证损失曲线更平滑，后期不抖——这说明每层确实在有效利用前面信息，而不是被噪声淹没。

更关键的是内存可控。Full AttnRes需要O(Ld)内存存所有层输出，显然跑不了大模型。Block AttnRes把层分成N个块，块内正常残差，块间才做注意力。8个块就能追回大部分收益， overhead可以忽略。

代码里这个block_attn_res函数，核心就6行：把块表示堆成向量、归一化、算logits、softmax加权。伪查询（pseudo-query）每个层学一个，不增加推理时的KV缓存压力。

从工程角度，这是典型的"算力换效率"——用一点额外的矩阵运算，换掉固定加法的结构性缺陷。对正在卷长上下文、卷多模态的团队来说，多一个可控的 depth-wise 注意力通道，意味着特征融合更灵活。

反方：为什么不该动

但动残差连接，等于动Transformer的承重墙。

2017年ResNet和Transformer几乎同时证明：深层网络能训，全靠这条捷径（skip connection）。它保证了梯度恒为1的流动路径，这是优化稳定性的数学基础。现在把固定权重改成学习的注意力，理论保证没了，训练会不会更敏感？

论文里的实验规模有限。2.5k星的项目，放出来的结果主要在语言建模（language modeling）和图像分类，最大模型到多大、在真正的大集群上表现如何，数据还没看到。Block AttnRes的"8个块"是调出来的经验值，换任务、换深度要不要重调？没给迁移指南。

更实际的顾虑是生态成本。残差连接是硬件和框架的假设前提。CUDA kernel、编译器优化、量化方案，都默认了这个计算图结构。改成动态注意力，算子融合（operator fusion）会不会 broken？TPU/GPU 上的实际吞吐是升是降？论文没测。

还有一层怀疑：这个"选择性聚合"的需求，是不是已经被别的机制满足了？MoE（混合专家模型）在层内做路由，RWKV、Mamba 这些架构在改整个序列建模方式。AttnRes卡在中间层做 depth-wise attention，增量价值到底有多少？

判断：什么时候值得试

我的看法分三层。

第一层，学术价值确定。它把"深度方向的注意力"这个思路做成了可插拔的模块，证明了残差不是唯一选择。这对架构创新有启发——Transformer的每个组件都值得被重新审视，哪怕用了七年。

第二层，工程落地要谨慎。小团队、新模型，可以把它当 ablation 选项测一测。但已有的大模型训练栈，换这个的成本远高于收益。除非你的场景恰好卡在"深度够了但特征融合不够"的瓶颈，否则不建议硬上。

第三层，长期值得关注。大模型正在从"堆参数"转向"堆效率"。任何能在不增参、不增显存的前提下提升特征利用率的改动，都可能被集成进下一代架构。AttnRes的Block版本是个务实的折中，如果后续能在多模态、长视频、具身智能这些对时序敏感的任务上证明优势，会成为标准组件。

GitHub仓库里有个细节：README的Citation部分还是空的，论文刚挂arXiv。2.5k星里有多少是"mark一下等成熟"，有多少真会去改forward函数？这个数字本身说明，社区对"修底层"的创新有饥渴，但也清楚知道，从代码到生产，中间隔着几十个未知的bug。

如果你正在训一个32层以上的模型，且观察到后期层loss震荡或特征退化，可以把Block AttnRes放进消融列表。官方给的伪代码足够清晰，半天能搭起来。但记得测完收敛曲线后，再跑一遍端到端吞吐——有些优化，纸上快不代表墙上快。

2500星项目把残差连接拆了！Transformer每层能"挑"

热搜

热门跟贴

热搜

热门跟贴

相关推荐

天下苦CUDA久矣，又一国产方案上桌了

CVPR 2026 | 从视觉Token内在变化量出发，实现VLM无损加速1.87倍

周口一油菜花田打卡地被推土机铲平，当地：系拆迁征收用地，居民不能私自种植

AI写CUDA算子国产芯片不行？上交方法直线拉升，DeepSeek也适用

前方等位3000桌 上海爆火饭馆又出新规：就餐要看SIM卡

第三轮第五批中央生态环保督察完成督察反馈

谷歌创始人布林：当年发完Transformer论文，我们太不当回事了

租客欠租留下满屋垃圾，房东联系反被要红包吃饭：最后还是发了

郑州空房天价水费追踪丨水务公司：系马桶漏水，水表计量有效

15%全量Attention！「RTPurbo」阿里Qwen3长文本推理5倍压缩方案

林俊旸离职后首次发声！复盘千问的弯路，指出AI的新路

最新 | 天津供热采暖收费新政发布

算法堡垒与数字骑士：从美以伊冲突看“军事革命”

现役军官带刀闯中使馆日方仅表示"遗憾" 高市没反应

狗狗帮主人整理大棚压膜带，来回往返，效率极高，网友：没有一口狗粮是白吃的

保定一小店售卖咸菜丝烧饼意外爆火，排队人数太多店铺宣布暂停营业，店主：流量太大了，我们承接不住，也担心影响烧饼品质

国产玩家亮剑世界模型！把全模态卷到顶后，天工AI不藏了

上班开粪车下班开奔驰的小伙今日大婚，当事人：吸粪车婚车队，全球第一个

732M模型超越7B！机器人操控新范式：从视频中「悟」物理

“龙虾”出现后，大模型时代的共识被推翻了

前方等位3000桌上海爆火饭馆又出新规：就餐要看SIM卡