DeepSeek识图模式大范围开放 告别纯文字交互时代

作者:pintuo 发布时间:2026-05-09 点击数:

5月9日消息,上月末,DeepSeek启动“识图模式”灰度测试,该功能打破传统文字OCR的局限,真正实现了图片识别与深度理解的能力突破,标志着其向多模态交互迈出关键一步。

据大量用户反馈,目前DeepSeek已大范围开放“识图模式”体验权限,几乎所有测试账号均可在界面中找到该功能入口。不过截至目前,该模式仍标注为“图片理解功能内测中”,尚未完成正式上线流程。

从实际体验来看,“识图模式”与现有“快速模式”“专家模式”并列展示在输入框上方,用户点击即可开启。开启后,用户可直接上传各类图片,让系统实现全方位的图片解读,其功能覆盖远超简单的文字提取。

在基础图像识别场景中,该模式可精准解析文物纹理、材质,甚至能依据细节推断出文物的年代与风格;面对高难度空间推理题,开启深度思考模式后,虽需耗时约4分钟,却能精准给出正确答案;对于网络流行的表情包、梗图,其能精准捕捉画面核心信息,解读背后的笑点与情绪;在生产力场景中,它可解析含代码、复杂UI的截图,提取全部文字,甚至能反向生成可交互的HTML代码,完整复原网页跳转功能。

伴随识图模式的灰度开放,DeepSeek同步公开了其多模态模型的核心技术框架“Thinking with Visual Primitives(以视觉原语思考)”,该框架有效解决了传统多模态模型的“指代鸿沟”难题,在算力消耗上也具备显著优势,处理800×800分辨率图片仅需90个tokens,远低于同类主流模型。

需要注意的是,当前识图模式仍存在明显不足,知识库更新滞后可能导致识别结果偏差,面对反直觉图形题目时稳定性不足,且暂未集成图像生成、视频理解等更广泛的多模态功能。


专业网站建设,定制开发就选品拓!