切换到宽版
 找回密码
 立即注册

QQ登录

只需一步,快速开始

西秦会馆

爆料、咨询:18909006163
广告、合作:13990030637
查看: 5183 | 回复: 13

[盐都杂谈] DeepSeek上新,“奥数金牌水平”

  [复制链接]

6万

主题

9万

帖子

49

听众

Rank: 12Rank: 12

积分
404010
威望
42512 点
铜板
221201 枚
西秦金币
0 个
鲜花
340 朵

在线时间
18487 小时
注册时间
2010-6-10
发表于 8 小时前 | 显示全部楼层 |阅读模式 | 来自四川
DeepSeek上新,“奥数金牌水平”

https://tech.ifeng.com/c/8odujE8aXyi





第一财经

2025年11月28日 08:33:11 来自北京





18人参与6评论




2025.11.28

本文字数:1072,阅读时长大约2分钟

作者 | 第一财经 刘晓洁

11月27日晚,DeepSeek悄悄地在Hugging Face 上开源了一个新模型:DeepSeek-Math-V2。这是一个数学方面的模型,也是目前行业首个达到IMO(国际奥林匹克数学竞赛)金牌水平且开源的模型。

在同步发布的技术论文中,DeepSeek表示,Math-V2的部分性能优于谷歌旗下的Gemini DeepThink,并展示了模型在IMO-ProofBench基准以及近期数学竞赛上的表现。

具体来看,在其中的Basic基准上,DeepSeek-Math-V2 远胜其他模型,达到了近99%的高分,而排在第二的谷歌旗下Gemini Deep Think (IMO Gold)分数为89%。但在更难的 Advanced 子集上,Math-V2分数为61.9%,略逊于 Gemini Deep Think (IMO Gold)的65.7%。

在这篇名为《DeepSeek Math-V2:迈向可自验证的数学推理》的论文中,DeepSeek指出,大语言模型已经在数学推理方面取得了重大进展,这是人工智能的重要试验台,如果进一步推进,可能会对科学研究产生影响。

但当前的AI在数学推理方面有着研究局限:以正确的最终答案作为奖励,正确的答案却不能保证正确的推理。许多数学任务,如定理证明,需要严格的分步推导,而不是数字答案,这使得最终答案奖励不适用。

为了突破深度推理的极限,DeepSeek认为有必要验证数学推理的全面性和严谨性。团队提出,自我验证对于扩展测试时间计算尤为重要,特别是对于那些没有已知解决方案的开放问题。

此次DeepSeek推出的Math-V2就从结果导向转向了过程导向,展示了强大的定理证明能力。这一模型不依赖大量的数学题答案数据,而是通过教会AI如何像数学家一样严谨地审查证明过程,从而在没有人类干预的情况下,也能不断提升解决高难度数学证明题的能力 。

论文提到,Math-V2在IMO 2025和CMO 2024上取得了金牌级成绩,在Putnam 2024上通过扩展测试计算实现了接近满分的成绩(118/120)。

DeepSeek认为,虽然仍有许多工作要做,但这些结果表明,可自我验证的数学推理是一个可行的研究方向,可能有助于开发更强大的数学AI系统。

对于DeepSeek此次的动作,海外的反应是“鲸鱼终于回来了”。有网友感慨,DeepSeek以10个百分点的优势击败了谷歌的IMO Gold 获奖模型DeepThink,这不在预测范围内。“想象一下,当他们公布编程模型时会发生什么,我打赌他们绝对有编程模型。”

目前,行业头部厂商的模型已经又迭代了一轮,11月,先是OpenAI发布了GPT-5.1,几天后xAI发布Grok 4.1,就在上周谷歌发布了Gemini 3系列引爆AI圈,“也该轮到DeepSeek出牌了”。不过,更受外界关注的仍然是,DeepSeek的旗舰模型到底什么时候更新,行业期待“鲸鱼”的下一个动作。





广告

75

主题

3万

帖子

9

听众

神经病人思路广

Rank: 12Rank: 12

积分
83180
威望
13 点
铜板
44334 枚
西秦金币
0 个
鲜花
15 朵

在线时间
11164 小时
注册时间
2007-1-6
发表于 8 小时前 来自手机 | 显示全部楼层 | 来自四川
数学学渣们大大的松了一口气
回复

使用道具 举报

30

主题

4万

帖子

14

听众

Rank: 12Rank: 12

积分
101355
威望
30 点
铜板
53317 枚
西秦金币
0 个
鲜花
0 朵

在线时间
4206 小时
注册时间
2016-10-1
发表于 7 小时前 来自手机 | 显示全部楼层 | 来自四川
回复

使用道具 举报

0

主题

2万

帖子

1

听众

Rank: 11Rank: 11Rank: 11

积分
55611
威望
0 点
铜板
28579 枚
西秦金币
0 个
鲜花
25 朵

在线时间
792 小时
注册时间
2017-7-18
发表于 7 小时前 来自手机 | 显示全部楼层 | 来自四川
可以
回复

使用道具 举报

3

主题

3万

帖子

11

听众

Rank: 11Rank: 11Rank: 11

积分
78674
威望
3 点
铜板
41915 枚
西秦金币
0 个
鲜花
0 朵

在线时间
4446 小时
注册时间
2016-6-3
发表于 6 小时前 来自手机 | 显示全部楼层 | 来自四川
路过
回复

使用道具 举报

2

主题

3万

帖子

6

听众

Rank: 11Rank: 11Rank: 11

积分
75842
威望
2 点
铜板
39177 枚
西秦金币
0 个
鲜花
0 朵

在线时间
3257 小时
注册时间
2017-8-16
发表于 6 小时前 来自手机 | 显示全部楼层 | 来自四川
看贴的
回复

使用道具 举报

2474

主题

5万

帖子

16

听众

Rank: 12Rank: 12

积分
119022
威望
2474 点
铜板
62443 枚
西秦金币
0 个
鲜花
135 朵

在线时间
9984 小时
注册时间
2016-3-15
发表于 6 小时前 来自手机 | 显示全部楼层 | 来自四川
...
回复

使用道具 举报

6

主题

4万

帖子

3

听众

Rank: 12Rank: 12

积分
85361
威望
6 点
铜板
44301 枚
西秦金币
0 个
鲜花
45 朵

在线时间
4172 小时
注册时间
2020-10-31
发表于 5 小时前 来自手机 | 显示全部楼层 | 来自四川
看看
回复

使用道具 举报

3

主题

5万

帖子

10

听众

Rank: 12Rank: 12

积分
105038
威望
3 点
铜板
54858 枚
西秦金币
0 个
鲜花
0 朵

在线时间
5223 小时
注册时间
2013-9-24
发表于 5 小时前 来自手机 | 显示全部楼层 | 来自四川
已阅读
回复

使用道具 举报

31

主题

324

帖子

0

听众

Rank: 4Rank: 4

积分
841
威望
31 点
铜板
455 枚
西秦金币
0 个
鲜花
0 朵

在线时间
0 小时
注册时间
2025-9-10
发表于 4 小时前 来自手机 | 显示全部楼层 | 来自安徽
路过
回复

使用道具 举报

112

主题

5万

帖子

16

听众

Rank: 12Rank: 12

积分
111280
威望
23 点
铜板
58831 枚
西秦金币
0 个
鲜花
1 朵

在线时间
13578 小时
注册时间
2006-11-28
发表于 4 小时前 来自手机 | 显示全部楼层 | 来自四川
哦哦
回复

使用道具 举报

7

主题

2万

帖子

3

听众

Rank: 11Rank: 11Rank: 11

积分
58120
威望
7 点
铜板
30464 枚
西秦金币
0 个
鲜花
0 朵

在线时间
2426 小时
注册时间
2021-5-5
发表于 1 小时前 来自手机 | 显示全部楼层 | 来自四川
路过
回复

使用道具 举报

1723

主题

4万

帖子

2

听众

我自逍遥

Rank: 10Rank: 10

积分
93591
威望
1640 点
铜板
48330 枚
西秦金币
0 个
鲜花
145 朵

在线时间
10159 小时
注册时间
2006-2-7
发表于 1 小时前 来自手机 | 显示全部楼层 | 来自四川
看看
回复

使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表