DeepSeek于上月月底开始灰度测试“识图模式”,并在近日宣布大范围开放,标志着其正式进入图文交互时代。
PChome 5月9日消息,DeepSeek于上月月底开始灰度测试“识图模式”,并在近日宣布大范围开放,标志着其正式进入图文交互时代。目前,测试账号内均可在输入框上方看到与“快速模式”、“专家模式”并列的“识图模式”入口,目前该功能仍标注为“图片理解功能内测中”。

该模式并非简单的文字提取模式,是具备了图片识别与分析的能力,以“以视觉原语思考”为框架,通过视觉元素融入推理链条,有效解决复杂场景下的“指代鸿沟”问题,实现精准推理。据实测显示,“识图模式”在文物鉴定、逻辑推理等反向生成等领域表现出色。

值得注意的是,当前版本仍存在知识库更新滞后、处理高难度反直觉图形时可能出错等局限。本次升级被视为DeepSeek补齐多模态短板、构建原生多模态能力的关键一步,将加剧国产大模型在视觉理解领域的竞争。