通过视觉,确实可以压缩信息
大模型可以脑补,脑补就是高压缩率解压缩
解压不是这两条线,是这两条线加上大模型已经训练过的对这个世界的理解

DeepSeek 诚不我欺
DeepSeek-OCR 发布:1个视觉token,抵得上10个文本token

还有更好的例子吗?可以放在评论区

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片