DeepSeek之后，清华和智谱AI提出“视觉压缩”新范式

Ai学习的老章

2025-11-01 11:33 ·北京 ·优质互联网领域创作者

大型语言模型（LLM）在处理超长上下文时面临着巨大的计算和内存成本挑战，这严重限制了它们在文档理解、代码分析和复杂推理等关键应用中的潜力。传统的解决方案，如扩展位置编码或优化注意力机制，往往无法从根本上解决 token 序列长度带来的开销，而检索增强（RAG）方法又可能引入信息丢失和额外延迟。

核心创新：视觉-文本压缩

https://arxiv.org/abs/2510.17800

清华大学和智谱AI等机构提出的 Glyph 框架，为这一难题提供了一个极具创新性的"非对称"解决方案：

信息密度革命 ：将冗长的文本内容渲染成紧凑的图像
跨模态处理 ：利用视觉-语言模型（VLM）处理视觉化文本
效率突破 ：单个视觉token可承载3-4倍文本信息量

技术实现三阶段 1. 持续预训练

训练数据：多样化渲染文本数据集
核心目标：建立视觉符号与语义的映射关系

2. LLM驱动的渲染搜索

采用遗传算法优化参数：
- 字体样式
- 版面布局
- DPI分辨率
平衡点：压缩率 vs 模型性能

3. 后训练优化

监督微调（SFT）
强化学习（RL）
OCR辅助任务（提升文本识别精度）

实验成果

指标

提升幅度

对比基线

Token压缩率

3-4倍

传统文本token

推理速度

最高4倍

Qwen3-8B

训练效率

约2倍

常规SFT

LongBench得分

相当/超越

同级LLM

战略意义

新范式互补 ：与注意力机制优化形成技术矩阵
扩展性突破 ：为百万级token处理铺平道路
跨模态增益 ：同步提升真实场景文档理解能力

该研究预示AI系统处理超长上下文的能力即将进入新纪元，相关代码已开源。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴