当前位置：首页 > 了解品拓 > 新闻资讯 > 行业动态

DeepSeek识图模式大范围开放告别纯文字交互时代

作者：pintuo 发布时间：2026-05-09 点击数：

5月9日消息，上月末，DeepSeek启动“识图模式”灰度测试，该功能打破传统文字OCR的局限，真正实现了图片识别与深度理解的能力突破，标志着其向多模态交互迈出关键一步。

据大量用户反馈，目前DeepSeek已大范围开放“识图模式”体验权限，几乎所有测试账号均可在界面中找到该功能入口。不过截至目前，该模式仍标注为“图片理解功能内测中”，尚未完成正式上线流程。

从实际体验来看，“识图模式”与现有“快速模式”“专家模式”并列展示在输入框上方，用户点击即可开启。开启后，用户可直接上传各类图片，让系统实现全方位的图片解读，其功能覆盖远超简单的文字提取。

在基础图像识别场景中，该模式可精准解析文物纹理、材质，甚至能依据细节推断出文物的年代与风格；面对高难度空间推理题，开启深度思考模式后，虽需耗时约4分钟，却能精准给出正确答案；对于网络流行的表情包、梗图，其能精准捕捉画面核心信息，解读背后的笑点与情绪；在生产力场景中，它可解析含代码、复杂UI的截图，提取全部文字，甚至能反向生成可交互的HTML代码，完整复原网页跳转功能。

伴随识图模式的灰度开放，DeepSeek同步公开了其多模态模型的核心技术框架“Thinking with Visual Primitives（以视觉原语思考）”，该框架有效解决了传统多模态模型的“指代鸿沟”难题，在算力消耗上也具备显著优势，处理800×800分辨率图片仅需90个tokens，远低于同类主流模型。

需要注意的是，当前识图模式仍存在明显不足，知识库更新滞后可能导致识别结果偏差，面对反直觉图形题目时稳定性不足，且暂未集成图像生成、视频理解等更广泛的多模态功能。

上一篇：微软Edge浏览器密码加载引关注启动时明文加载至内存非漏洞
下一篇：Visual Studio 2026集成最新WDK 驱动开发

产品

企业官方网站

电子网上商城

集团网群

外贸建站全球搜

网站优化推广

G3云推广

百度爱采购

小程序开发

APP开发

企业中心

合作伙伴

支持与服务

了解品拓

当前位置：首页 > 了解品拓 > 新闻资讯 > 行业动态

DeepSeek识图模式大范围开放告别纯文字交互时代

产品

企业官方网站

电子网上商城

集团网群

外贸建站全球搜

网站优化推广

G3云推广

百度爱采购

小程序开发

APP开发

企业中心

合作伙伴

支持与服务

了解品拓

当前位置： 首页 > 了解品拓 > 新闻资讯 > 行业动态

DeepSeek识图模式大范围开放 告别纯文字交互时代

当前位置：首页 > 了解品拓 > 新闻资讯 > 行业动态

DeepSeek识图模式大范围开放告别纯文字交互时代