分享好友 资讯首页 资讯分类 切换频道

DeepSeek推出新模型 数学推理达IMO金牌水平

2025-11-28 11:36190鼎古号第一财经

11月27日晚,DeepSeek在Hugging Face上开源了一个新模型:DeepSeek-Math-V2。这是一个数学模型,也是目前首个达到IMO金牌水平且开源的模型。

在同步发布的技术论文中,DeepSeek表示Math-V2的部分性能优于谷歌旗下的Gemini DeepThink,并展示了模型在IMO-ProofBench基准以及近期数学竞赛上的表现。具体来看,在Basic基准上,DeepSeek-Math-V2达到了近99%的高分,远胜其他模型,而排在第二的Gemini Deep Think (IMO Gold)分数为89%。但在更难的Advanced子集上,Math-V2分数为61.9%,略逊于Gemini Deep Think (IMO Gold)的65.7%。

在这篇名为《DeepSeek Math-V2:迈向可自验证的数学推理》的论文中,DeepSeek指出大语言模型已经在数学推理方面取得了重大进展,这是人工智能的重要试验台,如果进一步推进,可能会对科学研究产生影响。但当前AI在数学推理方面存在局限:以正确的最终答案作为奖励,正确的答案却不能保证正确的推理。许多数学任务如定理证明需要严格的分步推导,而不是数字答案,这使得最终答案奖励不适用。

为了突破深度推理的极限,DeepSeek认为有必要验证数学推理的全面性和严谨性。团队提出自我验证对于扩展测试时间计算尤为重要,特别是对于那些没有已知解决方案的开放问题。此次推出的Math-V2从结果导向转向了过程导向,展示了强大的定理证明能力。这一模型不依赖大量的数学题答案数据,而是通过教会AI如何像数学家一样严谨地审查证明过程,从而在没有人类干预的情况下不断提升解决高难度数学证明题的能力。

收藏 0
打赏 0
借尸还魂的“大将”“大佐”们 日本军国主义复燃
日本政府近日敲定了修改自卫队“官阶”名称的方案,并计划于本年度内向国会提交相关修订草案

0评论2026-04-2910

外贸屡创新高彰显中国产业链优势 韧性与竞争力并存
2026年一季度,我国货物贸易进出口总值达到11.84万亿元,同比增长15%。其中,出口额为6.85万亿元,增长11.9%,进口额为4.99万亿元,增长19.6%

0评论2026-04-2910

英伟达官号晒黄仁勋与樊振东同框照 跨界共鸣引热议
英伟达官方社交账号发布了一张创始人兼CEO黄仁勋与乒乓球世界冠军樊振东的合影。这张充满人情味的照片迅速引发科技与体育圈层的广泛关注

0评论2026-04-2910

特朗普时隔7年再拍英王肩膀 引发礼仪争议
当地时间4月27日,美国总统特朗普在会见访美的英国国王查尔斯三世时轻拍了后者的肩膀,此举被指责失礼。根据王室礼仪中的不成文规定,不应主动与王室成员进行身体接触。这并不是特朗普第一次做出类似举动

0评论2026-04-2917