:实验数据全景——R1 到底强在哪,弱在哪)
先看清楚对手是谁论文在多个基准上做了系统对比比较对象包括DeepSeek-V3自家的非推理型模型671B MoEGPT-4o (2024-05-13)OpenAI 的非推理型旗舰Claude-3.5-Sonnet (2024-10-22)Anthropic 的非推理型模型OpenAI-o1-minio1 的小号版本OpenAI-o1 (2024-12-17)推理模型R1 的主要对标对象由于中国大陆访问 o1 API 困难o1 的大部分数据直接引用官方报告。评估方法和标准模型不太一样。像 GPT-4o、DeepSeek-V3 这种非推理模型一般用贪心解码温度0来跑基准测试输出确定性高、重复性低。但推理模型如果也用贪心解码来做长文本推理会出现较高的重复率而且不同 checkpoint 之间波动很大。所以对 R1论文用了passk 评估——温度 0.6top-p 0.95对每题采样 k 个回答然后计算 pass1答案不出现在第一个回答里的概率。AIME 和 GPQA 上 k64MATH 和 Codeforces 上 k16LiveCodeBench 上 k8。pass1 是从 k 个采样里估算模型一次就能答对的概率不是top-1 答案对的概率。公式不复杂pass1 1/k × Σ(每道题的 k 个答案里答对的比例)对 AIME 还额外报告了cons6464 个采样做多数投票的结果。所有 R1 的输出都限制在最大 32,768 token。另外论文做了严格的数据去污染。DeepSeek-V3 基座的知识截止日期是 2024 年 7 月预训练数据里凡是包含评测题目 10-gram 匹配的文本段全部被过滤掉了。数学领域光是这种去污染就删掉了约 600 万条预训练文本。SFT 和 RL 的数学训练数据只用了 2023 年前的竞赛题确保训练和评估之间没有重叠。主流基准上的表现知识类基准MMLU、MMLU-Redux、MMLU-Pro 这三个都是百科知识多选题。R1 分别拿了 90.8、92.9、84.0全都超过 o1 和 GPT-4o。提升的主要来源是 STEM 相关的题目——大规模 RL 训练带来的推理能力在做理科题时效果最明显。在 GPQA Diamond博士生水平的理化生问答上R1 拿 71.5%o1 拿 75.7%GPT-4o 只有 49.9%。R1 还不及人类博士参考值约 81%而且人类博士有网络可以用但已经甩开了所有非推理模型。在 FRAMES 上R1 拿 82.5%超过 GPT-4o 的 80.5% 和 DeepSeek-V3 的 73.3%。FRAMES 是一个依赖长上下文文档做推理和回答的任务——这里有推理能力的优势在前面的几篇文章里没有特别强调但 R1 在长文档理解上的表现确实超过了 V3说明长链推理的能力在这类任务上也能迁移。数学基准这是 R1 最强的一块。AIME 2024R1 pass1 拿 79.8%跟 o1 的 79.2% 持平cons64 到 86.7%。GPT-4o 只有 9.3%。DeepSeek-V3 是 39.2%。MATH-500R1 拿 97.3%o1 是 96.4%。CNMO 2024中国高中数学联赛R1 拿 78.8%DeepSeek-V3 只有 43.2%。论文还测试了一批更新鲜的题目来验证 R1 能不能泛化。AIME 2025 在 R1 训练结束后才发布R1 的 pass1 是 75%11.3/15o1 是 80%12/15。再结合 AMC 12 2024 的成绩R1 的 USAMO 资格分超过了晋级线放在全美高中生里属于顶尖水平。另一个细分分析来自 2024 年 93 场数学竞赛的 366 道题。按数学分支来看R1 在数论73.4%和代数70.9%上最强组合数学26.6%和多项式14.9%偏弱几何4.5%最差。GPT-4o 在这些分支上的表现基本都是 R1 的一半或更少但同样是几何最弱。编程基准LiveCodeBench竞赛算法题R1 pass1 拿 65.9%o1 更高到 63.4%注意这里 o1 的数据需要跟其他对比一起看——原文中 o1 是 63.4%但 DeepSeek 的表格里 o1 也是 63.4而 R1 是 65.9R1 超过了 o1。GPT-4o 只有 32.9%。CodeforcesR1 的 elo 评级是 2029超过 96.3% 的人类选手。o1 是 2061略高一筹。GPT-4o 只有 759。SWE-Bench Verified真实软件工程任务R1 是 49.2% 的解决率o1 是 48.9%两者接近。Aider-Polyglot 上 R1 是 53.3%o1 更高到 61.7%。工程类编码任务上 R1 目前还不及 o1。论文里的解释是软件工程任务的评估时间太长影响 RL 的训练效率所以大规模 RL 在这一块做得不多。后续版本会通过软件工程数据的拒绝采样或异步评估来改善。通用对话基准AlpacaEval 2.0R1 的 LC-winrate 是 87.6%遥遥领先 GPT-4o 的 51.1% 和 DeepSeek-V3 的 70.0%。这个分数意味着 R1 的回复在人类偏好对比里赢了 87.6% 的对照组。ArenaHardR1 拿 92.3%超过 o1-mini 的 92.0%GPT-4o 是 80.4%。注意AlpacaEval 和 ArenaHard 都是偏用户更喜欢哪种回复的偏好测试不是测试谁更正确的。R1 在这两项上的高分源自第三和第四阶段加入的通用数据训练——尤其是非推理数据的大规模 SFT 和第四阶段的偏好对齐 RL。IF-EvalIF-Eval 测试的是你能不能严格遵循指令格式。R1 拿 83.3%DeepSeek-V3 是 86.1%GPT-4o 是 84.3%。R1 在这方面反而不如自家的 V3。这个结果侧面说明了一个 trade-off推理能力和指令遵循能力之间存在一定程度的张力。大量 RL 训练让模型学会了灵活的长链推理但这种灵活在需要严格遵守格式约束的场景下反而可能让模型更松散了。和人类的对比论文里有一个不太常见但很有意思的比较——把人拉进来一起打分。AIME 2024人类选手平均分换算下来约 37.8%基于所有参赛者R1 pass1 是 79.8%远超人类平均水平。CodeforcesR1 超过 96.3% 的人类选手。但要注意Codeforces 上的人类选手包括了所有注册用户大部分是业余爱好者不能代表顶尖水平。GPQA Diamond人类博士允许使用网络约 81%R1 是 71.5%。在这类需要广博知识的任务上人类专家仍然领先。论文里提到如果给 R1 也加上网络搜索能力这个差距可能会缩小很多。Chatbot Arena 的实际投票排名也反映了人类用户的偏好。到 2025 年 1 月 24 日R1 在风格控制排行榜上跟 o1 和 Gemini Exp-1206 并列第一。在数学、编程等细分维度的排名上R1 同样表现出色。安全评估总体安全水平论文在六个安全基准上做了评估结果是 R1 排在中等偏上水平。和 GPT-4o 的安全水平差不多。风险控制系统的效果很明显。没有风控系统时纯 R1 在 HarmBench 上的安全分只有 35.0%。加了风控后拉到了 96.3%隐藏推理过程和 89.3%显示推理过程。风控系统的工作方式是每轮对话后用户查询会自动匹配一个预定义的关键词列表然后用 DeepSeek-V3 做安全审核。审核任务按照一套 11 条的安全标准来判定——涵盖违法活动、歧视偏见、隐私、医疗建议等。细分类别分析论文在自建的安全基准上做了更细的分类评估把安全问题分成了四大类 28 个子类歧视与偏见性别、种族、宗教、外貌等违法与犯罪行为暴力、毒品、色情、网络犯罪等危害行为身体伤害、心理伤害、隐私侵犯等道德伦理问题家庭伦理、学术伦理、职业道德等R1 在处理违法和道德伦理问题的场景下表现很好但在歧视偏见和危害行为场景下属于中等水平。多语言安全论文把安全测试集翻译到了 50 种语言看模型在不同语言上的安全表现。结论是R1 在加风控系统的情况下50 种语言的综合安全分85.9%接近表现最好的 Claude-3.7-Sonnet88.3%。不加风控的情况下跟 GPT-4o 差不多水平。按语言细分R1不加风控没有出现任何高危语言安全分低于 60 的语言说明没有明显的语言层面的安全漏洞。越狱鲁棒性这块的结论不太乐观。用 2,232 个越狱模板随机拼接安全测试题R1 不加风控的情况下不安全回复率从原来的 25.2% 飙到了 85.9%——几乎所有安全防线都被绕过去了。加了风控系统之后不安全率被压到了 4.3%但拒绝回答率也跟着涨到了 87.3%。也就是说加了风控的 R1 面对越狱攻击时大部分时候直接拒绝回答而不是给出安全且有用的回复。o1 的情况类似——拒绝率到了 79.8%。相比之下Claude-3.7-Sonnet 的拒绝率只有 12.1%说明它在既要安全、又要尽量回答的平衡上做得更好。开源模型DeepSeek、Qwen在本地部署时没有风控系统保护面临的安全挑战比闭源模型更严重。论文的建议是开发者部署 R1 时最好搭一套类似的审核系统。推理能力带来的安全新问题论文专门提了一个值得警惕的现象推理能力的提升也会增强模型的危害能力。比如R1 在面对某些越狱攻击时不仅回答得更快还提供了一些具有更强操作性的内容。以前的模型可能只会泛泛地描述一个概念R1 的推理能力让它能给出更详细的、步骤更清晰的方案——这就意味着如果安全防线被突破R1 可能比非推理模型更危险。另外作为开源模型R1 可以被任何人拿去做微调这个过程有可能削弱模型内在的安全保护。这是一个目前没有太好解决办法的问题。推理链长度分析R1 的推理链长度有一个很明显的特征根据题目难度自适应调整。论文用 2024 年竞赛数学题做了分析。R1 在简单题上平均只用不到 7,000 个思考 token在最难的题上用了超过 18,000 个思考 token。对于11?这种极简单的题R1 通常只用不到 100 个 token。非推理型模型比如 GPT-4o的做法是固定长度输出平均只用 711 个 token没有多想一想的空间。而且靠多数投票来增加计算量的方法对非推理模型提升非常有限——GPT-4o 在 AIME 上做 64 次采样投票解决率只从 9.3% 提到 13.4%仍然远低于 R1 单次推理的 79.8%。为什么因为多数投票的每次采样是独立的模型不会在中间反思或修正。非推理模型缺乏回溯和自我纠错的能力单纯堆采样次数只是在重复犯同样的错误token 效率极低。当然 R1 也不是完美的。它的 Pass6479.8% → 86.7%说明多次采样仍然能提高准确率意味着有些推理链虽然很长但最后还是拐进了错误的路径。小结DeepSeek-R1 在各种基准上的数据可以概括成以下几条在数学和竞赛编程上R1 和 o1 处于同一梯队远超所有非推理模型。在通用偏好对话上R1 的 AlpacaEval 和 ArenaHard 分数领先 GPT-4o 很大一截。在软件工程任务上R1 略弱于 o1。在指令遵循上R1 反而不如自己的基座模型 DeepSeek-V3。安全性上R1 处于中等偏上水平加风控系统后效果明显但面对越狱攻击时严重依赖拒绝策略。多语言安全表现均衡没有明显漏洞。最核心的能力特征——自适应推理链长度——是 R1 区别于非推理模型的根本简单的题少想难的题多想这种动态分配计算资源的机制是传统模型做不到的。下一篇是最后一篇讲两个重要话题一是怎么把大模型的推理能力蒸馏到小模型上让 1.5B 的模型也能做推理二是整篇论文的核心启示——哪些做法真的有效哪些尝试失败了。