DAILY LESSON / 2026-04-30

DeepSeek 终于有多模态了

DeepSeek 终于有多模态了！

DeepSeek多模态AI模型AI动态AI智能体AI

DeepSeek 终于有多模态了！

V4 刚发不到一周，DeepSeek 又出手了。今天放出了一份新的技术报告，叫《Thinking with Visual Primitives》，翻译过来就是「用视觉原语思考」。这不仅仅让 DeepSeek 终于能看图了，自身的能力有了巨大的提升，而且还提出了一种别的 AI 都没有的新的技术方案，让 AI 看图的准确率产生了很大的飞跃。

我看完之后整个人是有点小激动的，所以一定要写一篇日课讲讲。

关于多模态，就是指的模型能直接理解多种输入格式，比如文字、图片和视频等，之前日课讲过，不了解的朋友可以先去看看。DeepSeek 自己的官网和 App 一直都有上传图片功能，所以很多人长期以来有一个非常大的误解，就是以为 DeepSeek 能看图。但其实 DeepSeek 在昨天之前根本就不是多模态模型，只支持文字输入。你所看到的所谓识图能力，只是通过 OCR（文字识别）把图片里的文字提取出来，然后让模型去理解这些文字。它并不能真正理解图片里的内容，比如物体、场景、关系等，更别说在图里做空间推理了。

部分朋友已经可以在 DeepSeek 网页版和 App 里看到一个新的“识图模式”了。目前这个模式还在内测阶段，暂时不是所有人都能用，但从技术报告里透露的信息来看，这个功能背后的技术已经基本成熟了，未来应该会很快放开。

更惊喜的是，DeepSeek 这次的多模态不仅是补了自己的短板，而且还做了技术上的创新。

先给大家简单解析一下这次的技术报告。现在主流的多模态大模型，比如 GPT、Claude Sonnet/Opus、Gemini 这些，看图能力其实已经相当不错了，文字识别、物体识别、场景描述都没啥大问题。但如果你要让它干一件稍微复杂点的事，它可能就不行了。

什么事呢？就是结构化的空间推理。最简单的一个例子，给它一张图，让它数一下里面有多少根薯条。听着很基础对吧？但你真试就会发现，主流模型经常数错，多一根少一根都很正常。再比如让它看一张地铁线路图，问 A 站到 B 站换乘几次。或者看一张电路图，问从 1 号节点到 5 号节点要经过哪些元件。这些任务做下来，你会发现错误率非常高。

为什么会这样？DeepSeek 这次给了一个挺漂亮的解释，他们把这个问题叫做「参考缺口」（Reference Gap）。意思就是，自然语言这个东西，对密集的空间布局来说，描述能力实在是太模糊了。你想想，"右上角第三个"、"那个稍微靠左一点的"，这种说法人和人之间都经常说不清楚，模型在内部推理的时候用语言来指代一个具体位置，就更容易说不清楚。它并不是看不见，而是它在脑子里想的时候，没法用语言精确地指着某个东西想。

而 DeepSeek 的解法非常直接，那就是让模型学会一边指一边想。

具体怎么做的呢？他们打了个非常生动的比方，叫“用手指数数”。你想想小朋友刚学数数的时候是怎么数的，他不是光看着，他要伸出手指点过去，一二三四这样数。这个动作不是多余的，它就是认知本身的一部分。

DeepSeek 把这个机制搬到了模型里。具体的方式是，在模型的推理链（也就是它的思考过程）里，直接插入空间标记，主要就是点的坐标和边界框。模型不是用一段语言去描述“那个红色的物体”，而是直接在推理过程中嵌一个具体的坐标，告诉自己我现在指的是这个位置。点和边界框就成了思考的最小单元，他们叫它「视觉原语」。

DeepSeek 终于有多模态了

视频号

抖音

小红书

公众号

Bilibili

X (Twitter)

相关推荐

阿里Qwen-Image-2.0：AI画图的中文能力，终于被拉满了

多模态反馈闭环与子智能体

DeepSeek V4：不是最强，但它承载了太多

Grok 4.3 Beta 的两个功能，一个全球独有