国产AI领域迎来重大突破——DeepSeek近日正式开启大规模“识图模式”内测,标志着这款现象级大模型正式迈入图文多模态交互新纪元。用户发现,在最新版本的应用界面中,输入框上方新增了与“快速模式”“专家模式”并列的「识图模式」选项,尽管标注着“图片理解功能内测中”的提示,但这一功能已向多数用户开放测试。
与传统OCR技术仅能机械识别文字不同,DeepSeek的“识图模式”展现出强大的视觉理解能力。测试用户上传博物馆文物照片后,系统不仅能准确识别年代、材质等基础信息,还能结合历史背景分析文物用途;面对网络表情包时,模型可拆解图像与文字的双重隐喻,解释幽默逻辑。在菜单解析、图表分析等场景中,该技术通过“视觉基元”定位图像关键区域,解决了文字过小或排版混乱导致的识别难题。某AI产品经理测试后评价:“过去需要截图、OCR转文字、粘贴三步操作的数据表格,现在直接拖入图片就能完整解析结构关系。”
技术实现层面,DeepSeek采用“基于视觉原语的思考”创新框架,将点、边界框等空间标记对象作为推理基础单元。这种设计使模型在处理空间关系、识别图像重点时具备显著优势,有效解决了传统多模态模型中“空间信息丢失”的痛点。值得关注的是,其技术团队在GitHub发布相关论文后迅速撤回,仅留“暂时访问不了”的提示,引发技术圈对底层架构创新的广泛猜测。
此次功能更新被视为国产大模型竞争格局的转折点。长期以来,视觉理解能力薄弱制约着国产模型的发展,而DeepSeek通过快速迭代,在半个月内完成从灰度测试到大规模开放的全流程,展现出极强的技术落地能力。行业分析师指出,该功能不仅补齐了文本生成之外的视觉短板,更通过“视觉-语言”耦合能力重构了AI与物理世界的交互方式。测试数据显示,其在文物鉴定、逻辑推理等复杂场景中的表现已接近海外顶尖模型水平。
据内部消息透露,DeepSeek正在筹备基于全新DSA稀疏注意力机制的V4.1版本,该模型将文本上下文长度扩展至百万Token级别,并深度整合多模态能力。在编程开发领域,这一升级将实现“手绘草图生成前端代码”的突破性应用;在工业场景中,模型可通过对设备照片的分析提供维修建议。普通用户则能体验到更生活化的服务——拍摄未知食材可获取菜谱,拍摄漏水区域可推荐维修方案,拍摄古董可了解历史背景。
当前测试版本仍存在局限性,例如对反直觉图形的处理精度有待提升,知识库更新存在时间延迟。但行业普遍认为,DeepSeek通过这场“视觉攻坚战”,成功将国产大模型推入全球多模态竞争的核心赛道。随着识图功能在办公自动化、科研分析等领域的渗透,AI正从“语言交互工具”转变为“全能生活助手”,这场由视觉理解引发的变革,或将重新定义人工智能的应用边界。










