DeepSeek 终于有多模态了
DeepSeek 终于有多模态了!
DeepSeek 终于有多模态了!
V4 刚发不到一周,DeepSeek 又出手了。今天放出了一份新的技术报告,叫《Thinking with Visual Primitives》,翻译过来就是「用视觉原语思考」。这不仅仅让 DeepSeek 终于能看图了,自身的能力有了巨大的提升,而且还提出了一种别的 AI 都没有的新的技术方案,让 AI 看图的准确率产生了很大的飞跃。
我看完之后整个人是有点小激动的,所以一定要写一篇日课讲讲。
关于多模态,就是指的模型能直接理解多种输入格式,比如文字、图片和视频等,之前日课讲过,不了解的朋友可以先去看看。DeepSeek 自己的官网和 App 一直都有上传图片功能,所以很多人长期以来有一个非常大的误解,就是以为 DeepSeek 能看图。但其实 DeepSeek 在昨天之前根本就不是多模态模型,只支持文字输入。你所看到的所谓识图能力,只是通过 OCR(文字识别)把图片里的文字提取出来,然后让模型去理解这些文字。它并不能真正理解图片里的内容,比如物体、场景、关系等,更别说在图里做空间推理了。
部分朋友已经可以在 DeepSeek 网页版和 App 里看到一个新的“识图模式”了。目前这个模式还在内测阶段,暂时不是所有人都能用,但从技术报告里透露的信息来看,这个功能背后的技术已经基本成熟了,未来应该会很快放开。
更惊喜的是,DeepSeek 这次的多模态不仅是补了自己的短板,而且还做了技术上的创新。
先给大家简单解析一下这次的技术报告。现在主流的多模态大模型,比如 GPT、Claude Sonnet/Opus、Gemini 这些,看图能力其实已经相当不错了,文字识别、物体识别、场景描述都没啥大问题。但如果你要让它干一件稍微复杂点的事,它可能就不行了。
什么事呢?就是结构化的空间推理。最简单的一个例子,给它一张图,让它数一下里面有多少根薯条。听着很基础对吧?但你真试就会发现,主流模型经常数错,多一根少一根都很正常。再比如让它看一张地铁线路图,问 A 站到 B 站换乘几次。或者看一张电路图,问从 1 号节点到 5 号节点要经过哪些元件。这些任务做下来,你会发现错误率非常高。
为什么会这样?DeepSeek 这次给了一个挺漂亮的解释,他们把这个问题叫做「参考缺口」(Reference Gap)。意思就是,自然语言这个东西,对密集的空间布局来说,描述能力实在是太模糊了。你想想,"右上角第三个"、"那个稍微靠左一点的",这种说法人和人之间都经常说不清楚,模型在内部推理的时候用语言来指代一个具体位置,就更容易说不清楚。它并不是看不见,而是它在脑子里想的时候,没法用语言精确地指着某个东西想。
而 DeepSeek 的解法非常直接,那就是让模型学会一边指一边想。
具体怎么做的呢?他们打了个非常生动的比方,叫“用手指数数”。你想想小朋友刚学数数的时候是怎么数的,他不是光看着,他要伸出手指点过去,一二三四这样数。这个动作不是多余的,它就是认知本身的一部分。
DeepSeek 把这个机制搬到了模型里。具体的方式是,在模型的推理链(也就是它的思考过程)里,直接插入空间标记,主要就是点的坐标和边界框。模型不是用一段语言去描述“那个红色的物体”,而是直接在推理过程中嵌一个具体的坐标,告诉自己我现在指的是这个位置。点和边界框就成了思考的最小单元,他们叫它「视觉原语」。