PChome 4月29日消息,据多方消息证实,DeepSeek正在进行灰度测试“识图模式”,该模式和“快速模式”“专家模式”并列,并非简单的OCR文字,而是终于具备了多模态识别能力。
PChome 4月29日消息,据多方消息证实,DeepSeek正在进行灰度测试“识图模式”,该模式和“快速模式”“专家模式”并列,并非简单的OCR文字,而是终于具备了多模态识别能力。

据悉,部分用户已实测上传食品包装、概念手机图等,DeepSeek能准确识别品牌、成分、设计特征,并给出实用建议。同时,DeepSeek多模态团队研究员陈小康在X平台发布“Now, we see you”并配图鲸鱼摘下眼罩,被广泛视为官方确认多模态上线的信号。

据网友今日晒出的图片了解到,灰度到的用户可以上传一张图片,让DeepSeek描述这张图。有网友称“速度上感觉和flash比较类似,很快”。还有网友显示可触发识图模式界面,但无法使用,提示“识图模式暂不可用,请稍后再试”。
部分测试结果显示,模型会分步骤输出:分析用户需求—检查图像—生成解读的思考过程。

此次功能并非简单文字扫描,而是基于多模态技术,即视觉+语言融合,能理解图片的语义和逻辑关系。据技术爆料,其底层可能沿用DeepSeek—OCR2的视觉因果流机制,可实现AI像人类一样按重要性重排图像内容,提升复杂图表、文档的理解准确率。
目前功能处于小范围灰度阶段,尚未全量开放,未被灰度到的用户暂时无法使用,API是否同步开放官方尚无消息。