DeepSeek多模态报告：让AI学会"用手指"

摸鱼算法

2026-04-30 22:55 ·北京

一位工程师正在GitHub上提交代码，他输入的不是常规优化，而是一套让AI"看见即思考"的新语法。4月30日，DeepSeek把这套方法论完整公开——不是炫技，是对整个多模态赛道的一次纠偏。

一、现有方案在回避真问题

多模态大模型这几年卷得很凶，但DeepSeek团队翻完文献发现一个尴尬事实：大家的链式思维（一种分步推理方法）基本还在玩文字游戏。

主流做法是什么？堆高分辨率、切图、增强感知——说白了，让AI"看得更清"。但报告直戳痛点：这只是在填"感知鸿沟"，更大的坑是"参照鸿沟"。

什么意思？自然语言天生模糊。你说"左边那个"，AI知道是哪吗？涉及复杂空间布局时，语言描述的弹性直接导致推理链条崩断。这不是看不清，是指不明。

二、"视觉原语"是什么

DeepSeek的解法很工程：把点、边界框这些空间标记，从"输入素材"升格为"思维单元"。

框架全称"基于视觉原语的思考"。核心操作是让视觉标记直接嵌入推理链路，让模型具备"指代"能力——抽象思考能锚定到具体物理坐标。空间关系从此可精确推演，不再靠语言打马虎眼。

报告披露，该架构视觉标记效率极高。模型体量紧凑、图像标记预算显著更低，却在计数和空间推理基准上追平GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash等头部模型。

这对System-2类多模态智能（慢思考、深度推理型系统）的轻量化部署是个明确信号。

三、产品端已落地

技术报告发布前，DeepSeek的"识图模式"已悄然上线。与"快速模式""专家模式"并列，不是OCR文字识别那套，是完整的多模态理解能力。

从发布节奏看，论文与产品同步——不是实验室成果占位，是验证过的工程方案。

四、为什么是"原语"这个词

计算机科学里，原语指不可再分的基础操作。DeepSeek借用这个概念，暗示空间标记应成为推理的"原子单位"，而非后期拼接的辅助信息。

这触及一个深层设计选择：多模态融合，是该让视觉适应语言（当前主流），还是让两者在更底层平等对话？

报告的选择是后者。代价是重构推理框架，收益是空间任务的确定性。

五、对从业者的实际影响

如果你在做视觉问答、机器人导航、AR空间交互——任何需要"精准指位"的场景——这套框架提供了可复用的设计范式。

关键 takeaway：标记效率>模型规模。小预算跑出大模型效果，这对端侧部署和成本控制是实打实的利好。

但报告也留下未竟之题：视觉原语的边界在哪？颜色、纹理、动态关系能否同样"原语化"？DeepSeek没给答案。

多模态赛道正在从"拼感知"转向"拼推理结构"。当所有人都在堆算力，有人选择重新设计思维的语法——这是取巧，还是更本质的解题思路？你的业务场景，真的需要AI"看得清"，还是"指得准"？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴