英伟达联合多所顶尖机构推出的TTT-E2E记忆压缩方案,直接打破效率瓶颈。不用额外缓存,还能实现数倍提速,这波操作属实惊艳。
打开网易新闻 查看精彩图片
TTT-E2E的核心亮点就是摆脱额外缓存依赖,走动态学习路线。这和DeepSeek的Engram模块差异明显,后者靠的是按需查表的静态路径。
打开网易新闻 查看精彩图片
团队还设计了三项优化策略平衡效率与稳定性。迷你批处理加8K滑动窗口组合,解决单token梯度更新爆炸问题。精准更新仅针对部分网络块,减少计算成本。
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
这项技术已在视频生成领域落地应用。据澎湃新闻报道,研究人员利用TTT层增强预训练Transformer,微调后生成了60秒《猫和老鼠》动画片段。
打开网易新闻 查看精彩图片
TTT-E2E并非完美无缺,存在两处明显局限。大海捞针类精准回忆细节任务中,表现远不如全注意力模型。
核心原因是它会过滤看似无关的细节,而全注意力模型能近乎无损召回所有信息。另外训练阶段的元学习需计算梯度的梯度,实现速度比标准预训练慢。
打开网易新闻 查看精彩图片
教育领域也有尝试,把方案应用到在线题库解析中,能快速处理超长题干和解析内容,响应速度较之前缩短至三分之一。
打开网易新闻 查看精彩图片
热门跟贴