DeepSeek「开眼」引爆AI圈：我用12张刁钻图片，试出了它的能力边界

2026-04-30

雷科技关注

DeepSeek补齐了最后一块拼图！

编者按：本文来自微信公众号“雷科技”，创业邦经授权转载。

在DeepSeek一记V4重拳彻底引爆科技圈的五天后，DeepSeek内部负责多模态的研究员陈小康在X上发布了这么一条帖子，并且附上了文字：

Now, we see you.

（图源：雷科技）

没错，就是字面意思。

当所有人还在为V4的价格和编码能力而惊叹时，DeepSeek突然开测识图模式，全网热议了一整年的多模态能力总算是落地了。

这更新速度，真心让人觉得梁文锋是不是为了不被网友做成不务正业的梗图，连夜把开发团队锁在了机房里。

需要注意的是，这次测试并非全量测试，而是小范围的灰度测试，只有部分用户能在DeepSeek官方App或网页版里看到，此时输入栏上方除了原有的快速模式、专家模式外，还会新增识图模式按钮，并标注“图片理解功能内测中”。

（图源：雷科技）

不巧的是，笔者的同事们全部都没能被灰度测试到，被DeepSeek官方抽到的人数居然高达0人！

幸运的是，笔者居然还真就成了那万中无一的天选之人。

既然这么巧合，小雷不给大家测试一番，多少有点过意不去。这次我精心选择了12张图片，让大家好好看看DeepSeek到底能看到什么？

理解能力强，知识库待更新

话不多说，我们直接从画面描述开始测试。

之所以将这个放在第一位，是因为这是视觉理解在实际场景中应用最多的一项功能。

以我们日常生活为例，在路边看到一株叫不出名字的奇葩植物，或者想找找某款穿搭的同款链接，甚至是在异国他乡对着满屏外文菜单发愁时，大家现在的第一反应多半是拍张照丢给AI问一句：“这是啥？”

这种“所见即所问”的交互，本质上就是在考验模型的视觉理解功底。

而这次我准备了三张图用作测试，分别是一张Coser图像、我在博物馆里的见闻以及一张信息量繁杂的活动现场图片。

（图源：雷科技）

提示词：请详细描述一下这张图，字数控制在250字以内。

对于第一张图片，DeepSeek的回答是这样的：

（图源：雷科技）

没错，DeepSeek不但完整描述了整个画面细节，而且还认出了图片里的角色，甚至还把拍摄这种图片中的背景、打光等元素等如实还原出来，用这套文字去文生图模型里直接就能还原一张高度类似的图片。

要知道，这个效果可是没开思考模式的。

对于第二张图片，DeepSeek的回答是这样的：

（图源：雷科技）

不打开思考模式的情况下，这次回答就是很单纯的画面描述，没有对于物品的解析，但是描述本身还是挺到位的，而且最后还是能看出来这款物品富有浓郁的中东或中亚艺术风情，很可能是一件珍贵的宫廷或宗教礼仪用具。

那么，要是我打开思考模式呢？

这下开始解析了，首先是对物品进行拆解，定义它是什么、有什么特征、所处的环境怎么样。

（图源：雷科技）

然后就开始下定义了，它认为是清代痕都斯坦风格。

（图源：雷科技）

那么清代痕都斯坦风格是啥呢？根据Wiki解释，这是18世纪清朝乾隆时期引入的中亚伊斯兰风格玉器，主要源自北印度莫卧儿王国。

刚好，我去看的就是莫卧儿王国展，还真给它找出来了。

（图源：雷科技）

对于第三张图片，DeepSeek的回答是这样的：

（图源：雷科技）

除了画面描述、文字信息读取，这次它还果断判断这是属于中国建博会·广州的活动现场图片，只能说图片理解这块确实没毛病嗷。

当然了，上面这些内容都是看图说话，那么更新一点的信息识别如何呢？

这次我准备了近些年的三张图片，提示词：图片里的东西是什么？并说出你的依据，字数控制在200个字以内。

（图源：雷科技）

对于第一张图片，DeepSeek的回答是这样的：

（图源：雷科技）

嗯...至少能从图片里看出宝可梦的信息，但是《Pokopia》这款游戏还是太新了，明显不在DeepSeek的知识库里。

对于第二张图片，DeepSeek的回答是这样的：

（图源：雷科技）

这次倒是判断得很准确，这确实是一张从3dm扒下来的FM24战术图。

对于第三张图片，DeepSeek的回答是这样的：

（图源：雷科技）

不难看出，它确实缺乏了最新的产品信息，但居然能通过副屏来判断成小米11 Ultra，只能说DeepSeek识图在逻辑这块真的拿捏了。

逻辑问题，同样搞不定

接下来，我们来试试元素识别。

这部分，说人话就是考验AI的眼力见了，里面有些题目，哪怕是真人来了也不一定能做出来。

诶，顺便看看DeepSeek会不会也是个色盲。

这类图片在网上那叫一个多啊，我干脆直接上谷歌搜罗了这些图来测试用，大家也别客气。

（图源：雷科技）

先测第一个，提示词：请直接告诉我这张图中有几只老虎。

让人想不到的是，这个问题居然能让DeepSeek开始自我博弈起来，不断地否认自己上一次数出来的结果，最后更是在两次数出6只老虎的情况下，坚定地回答了7只出来。

（图源：雷科技）

问题在于，这图里有10只老虎，这就让人很尴尬了。

再测第二个，提示词：这张图中隐藏着一组数字，请你直接告诉我其中有几个数字，它们分别是什么。

（图源：雷科技）

咋说呢，这个图之前就难倒过所有AI， DeepSeek同样没有能识别出来。

第三张图也是如此，可以说，这一类基于反色、碎块化的图片，依然是视觉理解的一生之敌。

（图源：雷科技）

最后是三道图形逻辑题，之前DeepSeek-V4在做逻辑题的时候表现就一般，不知道应对图形逻辑题的效果如何。

据说这三道都是行测例题，我们让DeepSeek来解答一下。

（图源：雷科技）

第一道，思考了整整三分钟。

（图源：雷科技）

答案是错的，正确答案是D。这图的逻辑其实还挺好懂的，就是前面两格单白/单黑的地方，第三格是白的，前面两格双白/双黑的地方，第三格就是黑的。

第二道题自然也是不负众望，错！

没想到，在我已经失去希望的情况下，经过六分钟深度思考后，这第三道题，居然是让DeepSeek给答对了！

（图源：雷科技）

我反复试了两遍，只能说这道题它确实能推理出来，虽说是采用算数的形式，但确实实现了零的突破。

只能说，行测备考你用这个，这辈子也是有了。

总结：识图只是前菜，多模态大招还在路上

完整测试下来，小雷我对DeepSeek这次的识图能力算摸透了。

只能说DeepSeek基础识图的准确率其实还是比较高的，然后它的推理思路本身也算有条不紊，但是目前知识库里保存的信息还不够多，而且面对难度较高的极限测试，基本上就没有能做对的时候。

但是，这次起码不会出现思考半天吧啦吧啦没完没了的情况。

（图源：DeepSeek）

在我看来，这次识图更像是过渡期的开胃菜，这个识图模式，更接近一个挂载在DeepSeek-V4主干上的视觉理解模块，而并非DeepSeek-V4本身的多模态能力。

但至少，它证明DeepSeek团队在视觉理解上已经跑通了，这明显是在为接下来的原生多模态大招铺路。可以预见的是，补上这块短板后，整个国产模型的格局必然会再次发生改变。

至于没拿到资格的也别急，就DeepSeek目前这个效果，豆包和千问其实够用了。

本文为专栏作者授权创业邦发表，版权归原作者所有。文章系作者个人观点，不代表创业邦立场，转载请联系原作者。如有任何疑问，请联系editor@cyzone.cn。

0

关于我们

订阅服务

特别推荐

法律相关

Copyright 2007-2023 cyzone.cn All rights reserved 京ICP证070362号京ICP备08103950-1号京ICP备08103950-9号京ICP备08103950-10号新出发京零字第朝140005号

爱奇清科（北京）信息科技有限公司地址：北京市朝阳区利泽西街东湖国际中心A座9层 | 网络文化经营许可证（京网文[2018]2153-213号）

违法和不良信息举报电话：010-53391121 举报邮箱：db@cyzone.cn

京公网安备 11010502035114号

营业执照出版物经营许可证

反馈

联系我们

推荐订阅