打开网易新闻 查看精彩图片

大型语言模型(LLM)在处理超长上下文时面临着巨大的计算和内存成本挑战,这严重限制了它们在文档理解、代码分析和复杂推理等关键应用中的潜力。传统的解决方案,如扩展位置编码或优化注意力机制,往往无法从根本上解决 token 序列长度带来的开销,而检索增强(RAG)方法又可能引入信息丢失和额外延迟。

核心创新:视觉-文本压缩

https://arxiv.org/abs/2510.17800

清华大学和智谱AI等机构提出的 Glyph 框架,为这一难题提供了一个极具创新性的"非对称"解决方案:

  1. 信息密度革命 :将冗长的文本内容渲染成紧凑的图像

  2. 跨模态处理 :利用视觉-语言模型(VLM)处理视觉化文本

  3. 效率突破 :单个视觉token可承载3-4倍文本信息量

技术实现三阶段 1. 持续预训练
  • 训练数据:多样化渲染文本数据集

  • 核心目标:建立视觉符号与语义的映射关系

2. LLM驱动的渲染搜索
  • 采用遗传算法优化参数:

    • 字体样式

    • 版面布局

    • DPI分辨率

  • 平衡点:压缩率 vs 模型性能

3. 后训练优化
  • 监督微调(SFT)

  • 强化学习(RL)

  • OCR辅助任务(提升文本识别精度)

实验成果

指标

提升幅度

对比基线

Token压缩率

3-4倍

传统文本token

推理速度

最高4倍

Qwen3-8B

训练效率

约2倍

常规SFT

LongBench得分

相当/超越

同级LLM

战略意义

  1. 新范式互补 :与注意力机制优化形成技术矩阵

  2. 扩展性突破 :为百万级token处理铺平道路

  3. 跨模态增益 :同步提升真实场景文档理解能力

该研究预示AI系统处理超长上下文的能力即将进入新纪元,相关代码已开源。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片