2026年1月27日,DeepSeek正式推出新一代光学字符识别系统DeepSeek-OCR 2,其核心创新在于通过DeepEncoder V2架构让AI掌握人类视觉逻辑。
2026年1月27日,DeepSeek正式推出新一代光学字符识别系统DeepSeek-OCR 2,其核心创新在于通过DeepEncoder V2架构让AI掌握人类视觉逻辑,实现从固定扫描到语义推理的范式升级,为复杂场景下的视觉识别提供新方案。

传统OCR模型多按固定栅格顺序处理图像,难以适配表格、公式等复杂排版。DeepSeek-OCR 2采用Qwen2-0.5B轻量语言模型替代原有CLIP组件,引入因果流查询机制,可根据内容语义动态重排视觉元素,完美复刻人类跳跃式阅读的逻辑习惯。

实测数据显示,该模型在OmniDocBench v1.5基准测试中综合得分达91.09%,较前代提升3.73%,阅读顺序编辑距离从0.085降至0.057。同时其视觉Token数量控制在256-1120之间,兼顾精度与成本。
在生产环境中,在线日志处理重复率从6.25%降至4.17%,PDF预处理重复率从3.69%降至2.88%。 此次突破不仅优化了文档处理等现有场景,更验证了语言模型架构作为视觉编码器的潜力,为全模态编码器研发奠定基础。