DeepSeek多模态灰度测试：视觉原语破解指不准难题

凉了时光人

2026-05-04 16:55 ·四川

就在4月30日，DeepSeek又发布了一篇关于多模态技术报告《Thinking with Visaul Primitives》（《用视觉原语思考》），阐释了这次上新的多模态技术背后的细节。

关于删除原因官方并没有特别说明，不过有猜测不是内容问题，而是信息透露太多。

DeepSeek的解法是给模型配上一只“手指”。通过引入“视觉原语”（Visual Primitives）框架，模型将点、边界框等空间标记提升为最小思维单元。这意味着模型在推理时，能够一边“想”一边“指”，将抽象的语言逻辑指向到具体空间坐标。

这一模型基于DeepSeek-V4-Flash（总参数2840亿）构建。DeepSeek的大量实验表明，该方法在推理精度上实现显著突破，在空间推理、视觉问答等挑战性任务上，性能持平或超越 GPT、Claude、Gemini 最新版本。

DeepSeek的研究证明：多模态智能的未来，不只是 “看见更多像素”，而是构建语言与视觉之间精准、无歧义的指代桥梁。

多模态已经成为当前大模型更新的一个重要方向，而DeepSeek在这一方面却迟迟未跟上，这也被认为是DeepSeek能力上的一大短板。也有传言称，DeepSeek暂缓多模态生成的训练策略，主要源于算力和现金的掣肘，在融资后，或许这一方向的训练会更加顺利。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴