DeepSeek发布OCR 2模型:AI可学会人类视觉逻辑

PChome | 编辑: 邸天宇 2026-01-27 15:10:10

2026年1月27日,DeepSeek正式推出新一代光学字符识别系统DeepSeek-OCR 2,其核心创新在于通过DeepEncoder V2架构让AI掌握人类视觉逻辑。

2026年1月27日,DeepSeek正式推出新一代光学字符识别系统DeepSeek-OCR 2,其核心创新在于通过DeepEncoder V2架构让AI掌握人类视觉逻辑,实现从固定扫描到语义推理的范式升级,为复杂场景下的视觉识别提供新方案。

传统OCR模型多按固定栅格顺序处理图像,难以适配表格、公式等复杂排版。DeepSeek-OCR 2采用Qwen2-0.5B轻量语言模型替代原有CLIP组件,引入因果流查询机制,可根据内容语义动态重排视觉元素,完美复刻人类跳跃式阅读的逻辑习惯。

实测数据显示,该模型在OmniDocBench v1.5基准测试中综合得分达91.09%,较前代提升3.73%,阅读顺序编辑距离从0.085降至0.057。同时其视觉Token数量控制在256-1120之间,兼顾精度与成本。

在生产环境中,在线日志处理重复率从6.25%降至4.17%,PDF预处理重复率从3.69%降至2.88%。 此次突破不仅优化了文档处理等现有场景,更验证了语言模型架构作为视觉编码器的潜力,为全模态编码器研发奠定基础。

说明:所有图文均来自网络,版权归原作者所有,如果侵犯您的权益,请联系我们删除。

每日精选

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑