首页 > 财经生活 > 财经生活 > DeepSeek再破谷歌OpenAI垄断:开源IMO数学金牌大模型

DeepSeek再破谷歌OpenAI垄断:开源IMO数学金牌大模型

发布时间:2025-11-29 10:42:06

AI界掌管开源的神——DeepSeek回来了!

刚刚,DeepSeek开源了全新的数学模型DeepSeekMath-V2,专注于可自验证的数学推理。

DeepSeekMath-V2不仅在IMO 2025和CMO 2024中取得金牌级分数,而且还在Putnam 2024中,得分118/120,超过了人类最高分90。

与此同时,DeepSeekMath-V2在所有CNML级别问题类别(代数、几何、数论、组合学、不等式)上均优于GPT-5-Thinking-High和Gemini 2.5-Pro。

不仅性能无敌,网友表示这还是第一个开源的IMO金牌模型。

这下,谷歌和OpenAI要坐不住了!

特别是OpenAI,本来就打算放出IMO金牌模型来应对谷歌Gemini 3 Pro的冲击,现在被DeepSeek抢先一步。

(鲸鱼回来了!)

值得一提是,这篇论文的一作邵智宏也是之前DeepSeekMath 7B的一作,在那篇论文中,他们提出了著名的GRPO

最强开源IMO金牌模型

总的来说,DeepSeekMath-V2是一个旨在实现自验证数学推理(Self-verification)的大型语言模型(685B)。

它的核心在于开发和利用强大的证明验证能力来指导和优化证明生成,从而克服传统上依赖最终答案作为奖励的强化学习(RL)方法的局限性。

传统用于数学推理的强化学习(RL)方法存在根本性限制:

最终答案奖励的不可靠性:将LLM奖励基于最终答案的正确性,并不能保证推理过程的正确性或逻辑的严谨性,模型可能通过错误的逻辑得出正确答案 。对定理证明任务的局限性:许多数学任务(如定理证明)不要求数值答案,而是需要严格的步骤推导和逻辑严谨性,使得基于最终答案的奖励机制不适用。缺乏内部验证能力:经过传统方法训练的LLMs缺乏验证自身证明有效性的能力,经常表现出高假阳性率(即认为错误的证明是有效的)。

DeepSeekMath-V2采用迭代的强化学习循环,交替优化证明验证器和证明生成器,以实现可自验证的数学推理。

证明验证

训练验证器

研究首先训练一个准确且忠实的LLM-based验证器,使其能够根据人类专家的标准识别证明中的问题并评分。

财经生活更多>>

丰田固态电池量产进程提速 奥迪承认命名策略调整失误 将回归传统命名体系并推A2 E-tron入门级纯电车型 美国国家公路交通安全管理局就127万辆福特F-150自动变速箱问题启动调查 通用韩国公司2026年计划本地生产50万辆汽车以满足海外需求 24.6%增速开门红,长城皮卡的风向变了? 正式发布!汽车车门把手强制性国家标准来了 10亿基金落地车谷!国有资本联手,押注汽车数字化转型 2025财年:博世在挑战中锚定战略航向,2030战略:提质增效,把握机遇 2月3日,AITO问界正式发布全新车型M6官图 宁德时代发布5C超快充电池:高温下循环1400次仍保有80%容量 60升/天超高除湿量!小米发布米家变频净化除湿机Max:3799元 制造商推出Win11 /安卓/ Linux三系统手机,配WP风格界面 真我回归OPPO后的首款新机来了!真我Neo8上架OPPO官网 iPhone存储空间被谁偷走?系统数据异常堆积与应用体积暴增是主因 抖音公布新“10项举措”,持续加大对不实信息、网络暴力治理力度 腾讯开启研发新范式:CodeBuddy Code 升级 90% 代码由其自生成 当 i 人博士入职大厂,让硬核科技连接烟火人间 零~红蝶~重制版新预告发布,双胞胎探秘禁地村落 小米17系列热销助力小米登顶国产销量第一 Epic Games用户近3亿但第三方收入下滑 文心助手突遭服务中断 用户量破两亿后迎严峻考验 PANDAER联名蔡骏弈推限量艺术挂画刃甲 GTA6播放列表更新引猜测:第三支预告即将发布? Clean My Feet登陆Steam:3D足部清洁模拟新游上线 史前战纪S3第二集获9分口碑,矛哥蜕变引热议 绿联海外推MagFlow二合一Magsafe充电宝,25W无线、100W有线快充 好消息:子系旗舰全员2nm芯片!坏消息:母系旗舰或缩水! 红魔11 Air手机官宣搭载7000mAh“AIR史上最大电池” 小米17 Pro Max手机3.0.36.0版本截屏体验问题修复 Google Research研究:简单重复提示词可大幅提升大模型准确率