DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning 论文重点部分翻译和要点解读
推理任务:(1) DeepSeek-R1在AIME 2024上实现了79.8%的Pass@1得分,略高于OpenAI-o1-1217。在MATH-500上,它取得了令人印象深刻的97.3%得分,与OpenAI-o1-1217持平,并显著超越其他模型。(2) 在与编码相关的任务中,DeepSeek-R1展示了专家级别的能力,在Codeforces竞赛中获得了2,029的Elo评分,超过了96.3%的
论文链接 https://arxiv.org/pdf/2501.12948
Abstract
我们推出了第一代推理模型:DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练而成的模型,无需监督微调(SFT)作为前置步骤,展现了卓越的推理能力。通过强化学习,DeepSeek-R1-Zero自然涌现出许多强大且有趣的推理行为。然而,它也面临一些挑战,例如可读性较差和语言混杂问题。为了解决这些问题并进一步提升推理性能,我们推出了DeepSeek-R1,它在强化学习之前引入了多阶段训练和冷启动数据。DeepSeek-R1在推理任务上的表现与OpenAI-o1-1217相当。为了支持研究社区,我们开源了DeepSeek-R1-Zero、DeepSeek-R1以及从DeepSeek-R1蒸馏出的六个密集模型(1.5B、7B、8B、14B、32B、70B),这些模型基于Qwen和Llama架构。

Figure 1 | Benchmark performance of DeepSeek-R1.
1 引言
近年来,大型语言模型(LLMs)经历了快速的迭代和演进(Anthropic, 2024; Google, 2024; OpenAI),逐步缩小了与人工通用智能(AGI)的差距。
最近,后训练已成为完整训练流程中的一个重要组成部分。它被证明可以提高推理任务的准确性,与社会价值观对应,并适应用户偏好,同时相对于预训练所需的计算资源相对较少。在推理能力方面,OpenAI的o1系列模型首次引入了通过增加思维链推理过程的长度来进行推理时扩展的方法。这种方法在数学、编码和科学推理等各种推理任务中取得了显著改进。然而,有效的测试时扩展仍然是研究社区面临的一个开放性问题。之前的一些工作探索了各种方法,包括基于过程的奖励模型(Lightman等,2023;Uesato等,2022;Wang等,2023)、强化学习(Kumar等,2024)以及蒙特卡洛树搜索和束搜索等搜索算法(Feng等,2024;Trinh等,2024;Xin等,2024)。然而,这些方法均未达到与OpenAI的o1系列模型相媲美的通用推理性能。
在本文中,我们迈出了使用纯强化学习(RL)提升语言模型推理能力的第一步。我们的目标是探索LLMs在没有监督数据的情况下发展推理能力的潜力,重点关注它们通过纯RL过程的自进化。具体来说,我们使用DeepSeek-V3-Base作为基础模型,并采用GRPO(Shao等,2024)作为RL框架来提高模型在推理中的表现。在训练过程中,DeepSeek-R1-Zero自然涌现出许多强大且有趣的推理行为。经过数千次RL步骤后,DeepSeek-R1-Zero在推理基准测试中表现出色。例如,AIME 2024上的pass@1分数从15.6%提高到71.0%,而在多数投票的情况下,分数进一步提高到86.7%,与OpenAI-o1-0912的表现相当。
然而,DeepSeek-R1-Zero面临诸如可读性差和语言混合等挑战。为了解决这些问题并进一步提升推理性能,我们引入了DeepSeek-R1,它结合了少量的冷启动数据和多阶段训练流程。具体来说,我们首先收集数千条冷启动数据来微调DeepSeek-V3-Base模型。随后,我们像DeepSeek-R1-Zero一样进行面向推理的RL。在RL过程接近收敛时,我们通过对RL检查点进行拒绝采样来创建新的SFT数据,并结合来自DeepSeek-V3的写作、事实问答和自我认知等领域的监督数据,然后重新训练DeepSeek-V3-Base模型。在使用新数据进行微调后,检查点会经历额外的RL过程,考虑所有场景的提示。经过这些步骤,我们获得了称为DeepSeek-R1的检查点,其在推理任务上的表现与OpenAI-o1-1217相当。
我们进一步探索了从DeepSeek-R1到更小密集模型的蒸馏。使用Qwen2.5-32B作为基础模型,直接从DeepSeek-R1进行蒸馏的表现优于在其上应用RL。这表明较大基础模型发现的推理模式对于提升推理能力至关重要。我们开源了蒸馏后的Qwen和Llama系列。值得注意的是,我们蒸馏的14B模型大幅超越了当前最先进的开源模型QwQ-32B-Preview,而蒸馏的32B和70B模型在密集模型的推理基准测试中创下了新纪录。
1.1. 贡献
后训练:基于基础模型的大规模强化学习
-
我们直接将强化学习(RL)应用于基础模型,而不依赖监督微调(SFT)作为初步步骤。这种方法允许模型探索解决问题的思维链(CoT),从而开发出了DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反思和生成长思维链的能力,这标志着研究领域的一个重要里程碑。值得注意的是,这是首个公开的研究,证明了大型语言模型(LLM)的推理能力可以通过纯粹的RL激励获得,而不需要SFT。这一突破为该领域的未来发展铺平了道路。
-
我们介绍了开发DeepSeek-R1的流程。该流程包括两个旨在发现改进的推理模式并与人类偏好对齐的RL阶段,以及两个作为模型推理和非推理能力种子的SFT阶段。我们相信这个流程将通过创建更好的模型来造福行业。
蒸馏:更小的模型也可以很强大
-
我们证明了更大模型的推理模式可以被提炼成更小的模型,相比在小型模型上通过RL发现的推理模式,这些提炼出的模型性能更好。开源的DeepSeek-R1及其API将有助于未来研究社区提炼出更好的小型模型。
-
使用由DeepSeek-R1生成的推理数据,我们对研究社区中广泛使用的多个密集型模型进行了微调。评估结果显示,经过提炼的小型密集型模型在基准测试上的表现非常出色。例如,DeepSeek-R1-Distill-Qwen-7B在AIME 2024上达到了55.5%的得分,超过了QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B在AIME 2024上获得了72.6%,在MATH-500上94.3%,在LiveCodeBench上57.2%的成绩,这些结果显著优于先前的开源模型,并与o1-mini相当。我们向社区开源了基于Qwen2.5和Llama3系列的1.5B、7B、8B、14B、32B和70B精炼检查点。
1.2. 评估结果总结
-
推理任务:(1) DeepSeek-R1在AIME 2024上实现了79.8%的Pass@1得分,略高于OpenAI-o1-1217。在MATH-500上,它取得了令人印象深刻的97.3%得分,与OpenAI-o1-1217持平,并显著超越其他模型。(2) 在与编码相关的任务中,DeepSeek-R1展示了专家级别的能力,在Codeforces竞赛中获得了2,029的Elo评分,超过了96.3%的人类参赛者。对于工程相关任务,DeepSeek-R1的表现略优于DeepSeek-V3,可以帮助开发者处理实际任务。
-
知识:在诸如MMLU、MMLU-Pro和GPQA Diamond等基准测试中,DeepSeek-R1取得了优异成绩,显著超过DeepSeek-V3,得分分别为MMLU 90.8%,MMLU-Pro 84.0%,GPQA Diamond 71.5%。虽然其在这几个基准上的表现略低于OpenAI-o1-1217,但DeepSeek-R1超越了其他闭源模型,展示了其在教育任务中的竞争力。在事实性基准SimpleQA上,DeepSeek-R1也优于DeepSeek-V3,展示了其处理基于事实查询的能力。类似的趋势是OpenAI-o1在此基准上超过4o。
-
其他:DeepSeek-R1在广泛的其他任务中也表现出色,包括创意写作、一般问题回答、编辑、摘要等。它在AlpacaEval 2.0上实现了87.6%的长度控制胜率,在ArenaHard上实现了92.3%的胜率,展示了其处理非考试导向查询的强大智能处理能力。此外,DeepSeek-R1在需要长上下文理解的任务中表现卓越,大幅超越了DeepSeek-V3在长上下文基准测试中的表现。
2. Approach
2.1. 概述
先前的工作严重依赖大量监督数据以提升模型性能。在本研究中,我们展示了通过大规模强化学习(RL),即使不使用监督微调(SFT)作为冷启动,也可以显著提高推理能力。此外,通过包含少量冷启动数据,性能可以进一步提升。在接下来的部分中,我们将介绍:(1) DeepSeek-R1-Zero,它直接将RL应用于基础模型,而不使用任何SFT数据;(2) DeepSeek-R1,它从一个用数千个长思维链(CoT)示例微调的检查点开始应用RL。(3) 将DeepSeek-R1的推理能力提炼到小型密集型模型中。
2.2. DeepSeek-R1-Zero:基于基础模型的强化学习
强化学习已经在推理任务中展示出了显著的有效性,如我们之前的工作(Shao等,2024;Wang等,2023)所示。然而,这些工作严重依赖于监督数据,而收集这些数据既耗时又费力。在本节中,我们将探讨大型语言模型(LLM)在没有任何监督数据的情况下发展推理能力的潜力,重点在于其通过纯粹的强化学习过程自我进化。我们将首先简要概述我们的RL算法,然后展示一些令人兴奋的结果,并希望这能为社区提供有价值的见解。
2.2.1. 强化学习算法
组相对策略优化 为了节省RL的训练成本,我们采用了组相对策略优化(GRPO)(Shao等,2024),这种方法放弃了通常与策略模型大小相同的评价模型,并通过组分数来估计基线。具体来说,对于每个问题𝑞,GRPO从旧策略𝜋𝜃𝑜𝑙𝑑中采样一组输出{𝑜1, 𝑜2, · · · , 𝑜𝐺},然后通过最大化以下目标来优化策略模型𝜋𝜃:

其中,𝜀和𝛽是超参数,Ai是优势函数,使用对应于每组输出的奖励组 {𝑟1, 𝑟2, ..., 𝑟𝐺} 计算得出。

2.2.2. 奖励建模
奖励是训练信号的来源,决定了强化学习(RL)的优化方向。为了训练DeepSeek-R1-Zero,我们采用了一个基于规则的奖励系统,主要包括两种类型的奖励:
- 准确性奖励:准确性奖励模型评估响应是否正确。例如,在具有确定性结果的数学问题中,要求模型以指定格式(例如,在一个方框内)提供最终答案,从而实现基于规则的正确性验证。同样,对于LeetCode问题,可以使用编译器根据预定义的测试用例生成反馈。
- 格式奖励:除了准确性奖励模型外,我们还使用了格式奖励模型,强制模型将其思考过程放在‘<think>’和‘</think>’标签之间。
我们在开发DeepSeek-R1-Zero时没有应用结果或过程神经奖励模型,因为我们发现神经奖励模型在大规模强化学习过程中可能会遭受奖励黑客攻击,并且重新训练奖励模型需要额外的训练资源,这会复杂化整个训练流程。
2.2.3. 训练模板
为了训练DeepSeek-R1-Zero,我们首先设计了一个简单的模板,指导基础模型遵循我们的特定指令。如表1所示,该模板要求DeepSeek-R1-Zero首先生成一个推理过程,然后是最终答案。我们有意将约束限制在这种结构格式上,避免任何内容特定的偏见——例如,强制反思推理或促进特定的问题解决策略——以确保我们可以准确观察模型在RL过程中的自然进展。
2.2.4. DeepSeek-R1-Zero的性能、自我进化过程和顿悟时刻
DeepSeek-R1-Zero的性能
图2展示了DeepSeek-R1-Zero在整个RL训练过程中在AIME 2024基准上的性能轨迹。如图所示,随着RL训练的推进,DeepSeek-R1-Zero表现出稳定且一致的性能提升。值得注意的是,AIME 2024上的平均pass@1得分显著增加,从最初的15.6%跃升至令人印象深刻的71.0%,达到了与OpenAI-o1-0912相当的性能水平。这一显著改进突显了我们的RL算法在优化模型性能方面的有效性。
表2提供了DeepSeek-R1-Zero与OpenAI的o1-0912模型在各种推理相关基准上的比较分析。研究结果表明,RL赋予了模型强大的推理能力,使其在多个任务上表现出色。这些结果进一步证明了通过强化学习方法可以显著提高大型语言模型的推理能力和整体性能。

DeepSeek-R1-Zero通过无需任何监督微调数据的方式获得了强大的推理能力。这一成就值得注意,因为它强调了模型仅通过强化学习(RL)就能有效学习和泛化的能力。此外,DeepSeek-R1-Zero的性能可以通过多数投票的应用进一步增强。例如,在AIME基准测试中应用多数投票时,DeepSeek-R1-Zero的性能从71.0%提升到86.7%,从而超过了OpenAI-o1-0912的性能。DeepSeek-R1-Zero能够在有或没有多数投票的情况下实现如此具有竞争力的表现,突显了其强大的基础能力和在推理任务中进一步发展的潜力。

DeepSeek-R1-Zero的自我进化过程
DeepSeek-R1-Zero的自我进化过程展示了RL如何驱动模型自主提升其推理能力的一个迷人实例。通过直接从基础模型启动RL,我们可以在不受监督微调阶段影响的情况下密切监控模型的进步。这种方法提供了清晰的视角,展示模型如何随着时间的推移演变,特别是在处理复杂推理任务方面的能力。
如图3所示,DeepSeek-R1-Zero的思考时间在整个训练过程中显示出一致的改进。这种改进不是外部调整的结果,而是模型内部的发展。DeepSeek-R1-Zero自然地获得了解决日益复杂的推理任务的能力,通过利用扩展的测试时间计算。这种计算范围从生成数百到数千个推理标记,使模型能够更深入地探索和精炼其思维过程。
自我进化的最显著方面之一是随着测试时间计算的增加而出现的复杂行为。诸如反思——模型重新审视和重新评估其先前步骤——以及探索解决问题的替代方法等行为自发产生。这些行为并未明确编程,而是作为模型与强化学习环境互动的结果出现。这种自发的发展显著增强了DeepSeek-R1-Zero的推理能力,使其能够以更高的效率和准确性应对更具挑战性的任务。
Aha Moment of DeepSeek-R1-Zero
在DeepSeek-R1-Zero的训练过程中观察到的一个特别有趣的现象是“顿悟时刻”的发生。如表3所示,这一时刻发生在模型的一个中间版本中。在此阶段,DeepSeek-R1-Zero学会了通过重新评估其初始方法为一个问题分配更多的思考时间。这种行为不仅证明了模型不断增强的推理能力,也是强化学习如何导致意外和复杂结果的一个引人入胜的例子。
这一刻不仅是模型的“顿悟时刻”,也是观察其行为的研究人员的“顿悟时刻”。它强调了强化学习的力量和美丽:我们不需要明确教导模型如何解决问题,只需为其提供正确的激励,它就会自主发展出先进的问题解决策略。“顿悟时刻”有力地提醒了我们RL解锁人工系统新智能水平的潜力,为未来更加自主和适应性强的模型铺平了道路。

论文要点
DeepSeek-R1 的核心思想是通过 强化学习(RL)驱动的多阶段训练框架,结合 冷启动数据 和 模型蒸馏技术,显著提升语言模型的推理能力,同时解决可读性、通用性和效率问题。其关键部分如下:
1. 核心思想
第一是纯强化学习探索,提出无需监督微调(SFT)的纯RL方法(DeepSeek-R1-Zero),验证LLM通过RL自进化可发展出强大的推理能力(如自我验证、长思维链生成)。第二是多阶段训练优化:在DeepSeek-R1中,引入冷启动数据和迭代式RL-SFT交替训练,解决可读性差、语言混合问题,并提升对多样化任务的泛化能力。第三是蒸馏赋能小模型:将大模型(DeepSeek-R1)的推理模式蒸馏到小模型(如1.5B-70B),证明小模型通过知识迁移可超越传统RL训练的效果。
2. 关键技术创新
-
RL算法与训练流程
-
GRPO(Group Relative Policy Optimization):通过分组采样替代传统Critic模型,降低训练成本。
-
规则化奖励系统:基于准确性(如数学答案验证)和格式(如标签结构化)的奖励设计,避免神经奖励模型的过拟合风险。
-
冷启动数据:少量高质量长思维链数据微调基础模型,提升初始RL的稳定性和可读性。
-
-
多阶段训练架构
-
阶段1(冷启动):基于人工设计的模板微调模型,确保输出结构清晰。
-
阶段2(推理导向RL):通过RL优化数学、代码等任务的表现,并引入语言一致性奖励减少混合问题。
-
阶段3(SFT增强通用性):结合拒绝采样生成的推理数据和通用任务数据(写作、问答),提升模型的多领域能力。
-
阶段4(全场景RL对齐):融合规则奖励与偏好模型,平衡推理性能与安全性、有用性。
-
-
蒸馏策略
-
直接利用DeepSeek-R1生成的80万条样本微调开源小模型(如Qwen、Llama),无需额外RL阶段。
-
蒸馏模型(如32B)在数学、代码任务上显著优于同等规模模型的纯RL训练结果。
-
更多推荐
所有评论(0)