DeepSeek-R1の論文:次世代推論モデルの探求と突破

论文是1月22号 前天发表的,文章介绍了DeepSeek-R1-ZeroDeepSeek-R1两种新型推理模型,展示了推理性能提升背后的技术创新与实验成果。

深入了解 DeepSeek-R1

DeepSeek-R1-Zero:纯强化学习的尝试

DeepSeek-R1-Zero 是一个完全通过大规模强化学习(RL)训练的模型,没有采用监督微调(SFT)作为初始步骤。这一策略使其在推理任务中展现了显著能力,同时也自然地表现出一些有趣而强大的推理行为。然而,该模型也面临一定的挑战,如语言可读性较差语言混用等问题。

DeepSeek-R1:多阶段训练的创新

为了解决 DeepSeek-R1-Zero 的局限性,研究团队引入了改进版本 DeepSeek-R1。

  1. 冷启动数据预训练:使用少量冷启动数据对基础模型 DeepSeek-V3-Base 进行微调。
  2. 强化学习优化:类似于 DeepSeek-R1-Zero 的强化学习过程。
  3. 监督微调与拒绝采样:结合 RL 中生成的新数据与领域数据(如写作、问答、自我认知)进行监督微调。
  4. 全场景提示训练:在所有场景下对模型进行额外优化。

通过这一流程,DeepSeek-R1 在推理基准上的表现达到与 OpenAI o1-1217 相当的水平。

蒸馏与模型轻量化

为支持更广泛的应用场景,研究团队进一步从 DeepSeek-R1 蒸馏出小规模密集模型,取得了显著成果。例如:

  • 蒸馏后的 14B 参数模型 超越了同等规模的 QwQ-32B-Preview;
  • 蒸馏的 32B 和 70B 模型 在推理基准上刷新了密集模型的表现纪录。

评估结果概览

1. 推理任务

  • AIME 2024:DeepSeek-R1 在 Pass@1 上达到 79.8%,略超 OpenAI-o1-1217。
  • MATH-500:表现尤为突出,取得 97.3%,与 OpenAI-o1-1217 相当,远超其他模型。
  • 编码任务:在 Codeforces 编程竞赛中,DeepSeek-R1 获得 2,029 Elo 积分,击败 96.3% 的人类参赛者。

2. 知识任务

  • 多任务基准测试:在 MMLU(90.8%)、MMLU-Pro(84.0%)和 GPQA Diamond(71.5%)等基准上,DeepSeek-R1 的表现显著优于 DeepSeek-V3,并在教育任务中展示了强大的竞争力。
  • 事实问答:在 SimpleQA 数据集上表现卓越,进一步证明其处理事实性查询的能力。

3. 长上下文与非考试任务

  • 长上下文理解:DeepSeek-R1 在 AlpacaEval 2.0 和 ArenaHard 等长上下文基准上展现了强大的性能,分别达到 87.6% 和 92.3% 的胜率。
  • 多样化任务:在创意写作、问答、编辑和总结任务中,DeepSeek-R1 同样表现优异,进一步凸显了其广泛的适用性。

DeepSeek-R1-Zero 方法概览

强化学习算法

为优化训练成本,采用了 Group Relative Policy Optimization (GRPO) 算法,该算法避免了传统强化学习中的评论者模型(critic model),通过组内得分估计基线,显著降低了训练资源需求。具体而言:

  • 组采样与策略优化:对于每个问题 (q),GRPO 从旧策略中采样多个输出,并优化目标函数,最大化策略性能,同时引入 KL 散度正则化项以保证模型生成的多样性。
  • 奖励机制:通过组内奖励差异(advantage)计算优势值,进一步指导模型优化。

公式如下:

奖励建模

奖励建模是强化学习的关键,用以引导模型的优化方向。团队设计了两种奖励模型:

  1. 准确性奖励:通过规则评估模型的答案是否正确,例如数学问题中使用明确格式的答案,以便于验证;在编程任务中,利用编译器反馈测试用例的正确性。
  2. 格式奖励:鼓励模型在输出中包含清晰的推理过程,并以特定格式标注思考过程和答案,例如用 <think> 和 </think> 标签包裹推理过程。

这种奖励设计避免了神经奖励模型可能带来的“奖励劫持”问题,同时简化了训练流程。

训练模板与模型表现

在训练中,团队设计了一种简单的模板,要求模型生成推理过程并给出最终答案。这一结构化格式允许团队准确观察模型在强化学习过程中的自然演化,而无需人为加入特定问题解决策略的偏倚。

表现提升与“自我进化”

DeepSeek-R1-Zero 在 AIME 2024 基准上的 Pass@1 分数从初始的 15.6% 稳步提升至 71.0%,通过多数投票更是进一步提升至 86.7%,超越 OpenAI-o1-0912 的表现。这表明,纯 RL 方法能够显著提升模型推理能力。

自主行为与“顿悟时刻”

在强化学习过程中,DeepSeek-R1-Zero 展现了一系列自然演化的行为,例如:

  • 反思能力:模型能够重新评估先前步骤并探索替代解决方案。
  • 长链推理:通过生成更长的推理链解决复杂问题。

一个令人兴奋的现象是模型的“顿悟时刻”,即中间版本的模型通过自我调整分配更多的思考时间,优化了解决问题的策略。这种行为未经过显式编程,而是完全依赖于强化学习环境中的自然发展。

DeepSeek-R1 的训练方法

冷启动:优化强化学习的初始阶段

为了避免 DeepSeek-R1-Zero 中早期 RL 训练的不稳定性,团队为 DeepSeek-R1 构建并收集了少量长链式思维(CoT)数据,用于对基础模型(DeepSeek-V3-Base)进行微调作为初始 RL 模型。这些数据的来源包括:

  • 少样本提示:使用长链式思维示例指导生成;
  • 直接提示:让模型生成包含反思与验证的详细答案;
  • DeepSeek-R1-Zero 输出:采用人类注释和后处理优化输出质量。

通过这些方法,收集了数千条冷启动数据进行微调,相较于 DeepSeek-R1-Zero,该阶段的冷启动数据有以下优点:

  • 可读性:冷启动数据采用设计良好的输出格式,包括推理过程和总结部分,以提高用户体验。
  • 性能潜力:冷启动数据为模型提供了更强的初始推理能力,从而实现了更快的性能提升。

推理导向的强化学习

完成冷启动数据微调后,对模型进行与 DeepSeek-R1-Zero 相同的大规模 RL 训练,但在 DeepSeek-R1 中引入了语言一致性奖励,旨在解决 CoT 输出中出现的语言混用问题:

  • 语言一致性奖励:计算目标语言单词占比,将其作为奖励信号,尽管该方法可能会略微降低模型性能,但它提高了输出的可读性。

最终,通过将推理任务准确性奖励与语言一致性奖励相结合,在多种推理密集型任务(如数学、编程、科学和逻辑推理)上训练模型直至收敛。

拒绝采样与监督微调

当推理导向的 RL 收敛后,利用生成的检查点数据开展监督微调(SFT)以进一步提升模型的通用能力:

  • 推理数据:通过拒绝采样扩展数据集,仅保留正确且高质量的推理轨迹。最终收集了约 60 万条推理相关样本。
  • 非推理数据:包括写作、事实问答、自我认知等其他任务,主要通过调用 DeepSeek-V3 生成。最终收集了约 20 万条非推理样本。

使用上述约 80 万条样本数据对 DeepSeek-V3-Base 进行两轮微调,大幅提升了模型的推理和非推理能力。

全场景强化学习

为了进一步优化模型对人类偏好的适配性,在所有场景下引入了次级 RL 阶段,以改进模型的帮助性无害性

  • 帮助性:专注于评估总结部分的实用性和相关性,确保输出能够满足用户需求。
  • 无害性:评估模型完整响应,避免潜在风险、偏见或有害内容。

这一阶段结合了规则奖励和多样化提示分布,通过强化学习提升模型在推理、生成、写作等广泛任务中的表现。

以下是 结论、局限性与未来工作部分报告:

未来工作

为进一步提升 DeepSeek-R1 的能力,团队计划在以下方向进行深入研究:

  1. 提升通用能力:研究如何利用长链式思维提升函数调用、多轮对话等任务的表现,从而实现更全面的通用能力。
  2. 优化语言支持:解决语言混用问题,增强对多语言场景的支持,确保模型在多语言输入时的响应一致性。
  3. 改进提示工程:研究更鲁棒的提示策略,减少模型对提示变化的敏感性,进一步优化用户体验。
  4. 软件工程任务优化:引入拒绝采样(rejection sampling)和异步评价方法,提升 RL 在软件工程任务上的效率,并推动模型性能提升。