分享好友 资讯首页 资讯分类 切换频道

DeepSeek跨入图文交互时代 识图模式开启新体验

2026-05-11 13:19130鼎古号东方财富网

上个月底,DeepSeek 开始灰度测试“识图模式”。这种模式不仅限于文字 OCR,还具备了图片识别理解能力。最新用户反馈显示,DeepSeek 已经大范围开放“识图模式”供用户体验,几乎所有测试账号都能看到该入口。

拥有灰度测试资格的用户会发现,在输入框上方与“快速模式”和“专家模式”并列,出现了一个全新的“识图模式”按钮。开启该模式后,用户可以直接上传图片让 DeepSeek 进行图像识别。其能力远超简单的文字提取,例如在基础的图像识别领域,它能详细描述纹理与材质,甚至准确推断出某件玉器属于 18 世纪清代乾隆时期的“痕都斯坦风格”。面对烧脑的逻辑题时,它展现出硬核的推理能力,能够解决高难度空间推理题。此外,它还能精准识别流行的表情包或梗图,甚至解读出小猫的情绪,理解网民的转发笑点。在生产力方面,它还可以充当万能的“截图转码器”,直接解析包含代码、复杂 UI 界面的技术报告或网页截图,提取所有文字,甚至生成可交互的 HTML 代码,复原原网页的跳转按钮。

伴随着识图模式的上线,DeepSeek 上月底还公开了其背后的多模态模型技术细节,公布了一种名为“Thinking with Visual Primitives”的核心框架。传统多模态大模型在面对密集场景时存在“指代鸿沟”的困境,模型虽然能看到图片,但在推理过程中用模糊的自然语言构建逻辑链时容易导致注意力漂移。DeepSeek 的解法是将点、边界框等代表空间位置的视觉元素直接融入模型的推理链条,使其成为“思维的基本单元”。这种创新框架使得模型在推理时就像人类用“赛博手指”在脑海中精确指出目标物一样,边想边指,从而解决了复杂空间布局中的逻辑难题。

更令人惊叹的是,这种高效的框架在实际运算中对算力资源非常友好。处理一张 800×800 分辨率的图片时,DeepSeek 仅消耗约 90 个 tokens,而 GPT 和 Claude 等其他主流模型则需要消耗约 870 到 1100 个 tokens。DeepSeek 在多项计数与空间推理的基准测试上达到了比肩甚至超越前沿模型的水平。

收藏 0
打赏 0
苹果或打破对台积电依赖 岛内担忧 半导体格局生变
据报道,英特尔公司与苹果公司达成初步协议,将代工生产苹果产品所用的芯片。这一消息意味着苹果目前完全依赖台积电的局面可能成为历史。英特尔和苹果经过一年多的密集谈判,在近几个月敲定了正式合约。不过,英特尔将为苹果哪些产品代工芯片,目前仍不明朗

0评论2026-05-1112

泰国前总理他信再获假释出狱 重获自由受监管
泰国前总理他信于5月11日上午获假释,从曼谷北部空炳中央监狱出狱。现年76岁的他信自2001年起担任泰国总理,2006年因军事政变下台后长期流亡海外。2023年8月22日,他信返回泰国并被判处8年监禁,随后泰国国王将刑期减至一年

0评论2026-05-1110

武大批评校友余某真的过了 低俗营销引争议
近日,OPPO的一则母亲节营销文案在网络上引起争议。文案内容提到:“我妈有两个‘老公’,一个是我爸,另一个一年见两回。跟我爸约会基本不打扮,见另一个,她恨不得穿婚纱

0评论2026-05-1112