当前位置：首页 > news >正文

OpenAI的真正对手？DeepSeek-R1如何用强化学习重构LLM能力边界——DeepSeek-R1论文精读

news 2026/2/8 10:32:09

2025年1月20日，DeepSeek-R1 发布，并同步开源模型权重。截至目前，DeepSeek 发布的 iOS 应用甚至超越了 ChatGPT 的官方应用，直接登顶 AppStore。
在这里插入图片描述

DeepSeek-R1 一经发布，各种资讯已经铺天盖地，那就让我们一起来精读一下论文，看看引爆AI圈的 DeepSeek-R1 是如何炼成的？

0. 前言

在正式阅读论文前，我问了DeepSeek-R1一个问题：“写了篇博客，主要内容是阅读DeepSeek-R1论文，帮我想十个标题”，让我们看看它给出的回答：

以下是十个吸引人且富有深度的标题建议，突出技术洞察与行业价值：

《推理革命：DeepSeek-R1如何用强化学习重构LLM能力边界？》
—— 聚焦RL技术对模型推理能力的突破性提升
《小模型逆袭大厂顶流：从DeepSeek-R1看知识蒸馏的“魔法”》
—— 对比蒸馏模型与GPT-4o/Claude的性能反差
《放弃CoT反而更强？DeepSeek-R1的零样本优化启示录》
—— 揭秘少样本提示失效背后的技术逻辑
《RLHF之后的下个战场：DeepSeek-R1揭示模型对齐新范式》
—— 探讨安全性与推理能力的协同进化
《从32B到70B：解密DeepSeek-R1的“模型缩放法则”》
—— 分析参数规模与任务性能的非线性关系
《当AI拒绝回答：DeepSeek-R1安全强化学习的双刃剑效应》
—— 讨论中文QA性能下降的伦理与技术取舍
《超越AlphaGo思维：DeepSeek-R1如何破解MCTS的文本生成困局？》
—— 解读蒙特卡洛树搜索在NLP领域的适应性挑战
《80万样本炼金术：从DeepSeek-R1看高质量训练数据的“隐形护城河”》
—— 剖析数据工程对模型性能的指数级影响
《OpenAI的真正对手？DeepSeek-R1数学推理能力全面对标GPT-4》
—— 通过AIME/MATH竞赛数据展开跨模型对决
《失败的价值：DeepSeek-R1研发中那些被放弃的技术路线》
—— 从PRM/MCTS实验看AI工程化的试错哲学

设计思路：

冲突感：使用“逆袭”“困局”“双刃剑”等词制造认知张力
数据背书：突出28.9% AIME、80万样本等具体数字增强可信度
行业定位：通过“OpenAI对手”“RLHF战场”等关联头部玩家
方法论启示：强调“零样本优化”“模型缩放法则”等普适性规律
多维视角：涵盖技术突破、伦理反思、失败案例等立体维度

这些标题既可单独使用，也可作为系列文章框架，适合不同传播场景需求。

可以看到，它给出的回答还是比较惊艳的，下面我们来看论文。

1. 背景

DeepSeek，全称“杭州深度求索人工智能基础技术研究有限公司”，成立于2023年7月。在硅谷，DeepSeek被称作“来自东方的神秘力量”、大模型届的“拼多多”。2025年1月20日，DeepSeek-R1 发布，性能对标 OpenAI o1 正式版，并同步开源模型权重。

2. 摘要

我们正式推出第一代推理模型DeepSeek-R1-Zero与DeepSeek-R1。其中，DeepSeek-R1-Zero通过大规模强化学习（RL）训练，无需把有监督微调（SFT）作为第一步，展现出卓越的推理能力。通过RL训练机制，该模型自发形成了多种强效且具备启发性的推理范式。

然而，该版本存在可读性不足及语言混杂等局限性。为突破这些技术瓶颈并进一步提升推理性能，我们开发了深度融合多阶段训练与冷启动数据预处理的DeepSeek-R1模型。实验验证表明，DeepSeek-R1在核心推理任务上已达到与OpenAI GPT-o1-1217相当的基准性能。

为促进学术生态建设，我们完整开源DeepSeek-R1-Zero和DeepSeek-R1模型，并发布基于Qwen与Llama架构从DeepSeek-R1蒸馏获得的六个稠密模型（1.5B/7B/8B/14B/32B/70B）。
在这里插入图片描述

3. 简介

近年来，大型语言模型（LLMS）一直在经历快速的迭代和进化，逐渐减少了与人工通用智能（AGI）的差距。

近年来，后训练已成为完整模型训练流程的重要组成部分。相较于预训练阶段，该方法以较低的计算资源成本，显著提升了模型在推理任务中的准确率，实现了社会价值对齐与用户偏好适配。在推理能力发展领域，OpenAI的o1系列模型首创了通过扩展思维链（CoT）推理长度实现推理时延展的创新方法，在数学推导、代码生成及科学推理等任务中实现了显著突破。然而，如何实现有效的测试时延展仍是学界亟待解决的核心难题。先前研究探索了多种技术路径，包括基于过程的奖励模型、强化学习以及蒙特卡洛树搜索与束搜索等算法，但均未达到与OpenAI o1系列相当的通用推理性能。

本文首次尝试通过纯强化学习（RL）提升语言模型推理能力。我们的目标是探索LLM在没有任何监督数据的情况下开发推理能力的潜力，重点是通过纯RL过程进行自我进化。具体而言，我们以DeepSeek-V3-Base为基础模型，采用GRPO框架进行强化学习优化。训练过程中，DeepSeek-R1-Zero自发形成了多种强效且富有启发性的推理模式。经过数千次RL迭代后，该模型在推理基准测试中展现出卓越性能：AIME 2024测试的pass@1分数从15.6%跃升至71.0%，多数投票机制下更提升至86.7%，与OpenAI-o1-0912性能持平。

然而，DeepSeek-R1-Zero仍存在可读性欠佳及语言混杂等局限性。为解决这些问题并进一步提升性能，我们开发了整合冷启动数据与多阶段训练流程的DeepSeek-R1模型。具体实施包含三个阶段：首先收集数千条冷启动数据对DeepSeek-V3-Base进行微调；随后实施与R1-Zero相似的强化学习优化；当RL过程接近收敛时，通过拒绝采样生成新SFT数据，并结合DeepSeek-V3在文本创作、事实问答及自我认知等领域的监督数据，重新训练基础模型。经过新一轮数据微调后，模型进入考虑全场景提示的附加RL阶段，最终获得性能与OpenAI-o1-1217相当的DeepSeek-R1。

我们进一步探索了从DeepSeek-R1到小型稠密模型的蒸馏技术。以Qwen2.5-32B为基础模型时，直接蒸馏的效果优于对其应用RL训练，这表明大模型发现的推理模式对能力提升具有关键作用。我们开源了基于Qwen与Llama架构的蒸馏模型系列。值得注意的是，14B蒸馏模型性能大幅超越当前最优开源模型QwQ-32B-Preview，32B与70B版本更在稠密模型推理基准中创下新纪录。

3.1 贡献

后训练：基础模型的大规模强化学习

我们直接将强化学习（RL）应用于基础模型，而不将有监督微调（SFT）作为初始步骤。这种方法允许模型探索思维链（CoT）来解决复杂问题，从而开发出了DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了自我验证、反思和生成长 CoT 等能力，为研究界树立了一个重要的里程碑。值得注意的是，它是第一项公开研究，验证了 LLM 的推理能力可以纯粹通过 RL 来激励，而无需 SFT。这一突破为这一领域的未来发展铺平了道路。
我们介绍了开发 DeepSeek-R1 的流程。该流程包含两个 RL阶段，旨在发现改进的推理模式，并与人类偏好保持一致。以及作为模型推理和非推理能力种子的两个 SFT 阶段。我们相信，通过创建更好的模型，该流程将为行业带来益处。

蒸馏：小型模型也可以很强大

我们证明，大模型的推理模式可以提炼成较小的模型，从而获得比在小型模型上通过 RL 发现的推理模式更好的性能。开源的 DeepSeek-R1 及其API将有利于研究界将来能提炼出更好的小型模型。
利用DeepSeek-R1生成的推理数据，我们对研究界广泛使用的几个密集模型进行了微调用。评估结果表明提炼出的小型密集模型在基准测试中表现优异。DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上的得分率达到 55.5%，超过了 QwQ-32B-Preview。此外，DeepSeek-R1-Distill-Qwen-32B在AIME 2024上的得分为72.6%，在MATH-500上的得分为94.3%，在LiveCode上的得分为57.2%、和 57.2%。这些结果明显优于以前的开源源模型，并与 o1-mini 不相上下。我们开源了 1.5B、7B、8B、14B、32B 和 70B 检查点。

3.2 评估结果摘要

推理任务：（1）DeepSeek-R1 在 AIME 2024 上的 Pass@1 得分为 79.8%，略微超过 OpenAI-o1-1217。在 MATH-500 任务中，它获得了 97.3% 的高分，与 OpenAI-o1-1217 的表现相当，明显优于其他模型。(2) 在编码相关任务中，DeepSeek-R1 在代码竞赛任务中表现出专家级水平，在 Codeforces 中获得了 2,029 Elo 评分，超过了 96.3% 的人类参赛者。在工程相关任务中，DeepSeek-R1的表现略好于DeepSeek-V3，这可以帮助开发人员完成现实世界中的任务。
知识：在MMLU、MMLU-Pro和GPQA Diamond等基准测试中，DeepSeek- R1取得了优异成绩，MMLU得分90.8%，MMLU-Pro得分84.0%，GPQA Diamond得分71.5%，明显优于DeepSeek-V3。虽然在这些基准测试中，DeepSeek-R1的表现略低于OpenAI-o1-1217，但它超越了其他闭源模型，显示了它在教育任务中的竞争优势。在事实基准SimpleQA上，DeepSeek-R1的性能超过了DeepSeek-V3，这表明它有能力处理基于事实的查询。OpenAI-o1在该基准测试中超越了4o，也呈现出类似的趋势。
其他：DeepSeek-R1 还能胜任各种任务，包括创意写作、
一般问题解答、编辑、总结等。在 AlpacaEval 2.0 中，它的长度控制胜率达到 87.6%，在 Are- naHard的胜率高达92.3%，展示了其智能处理非考试导向查询的强大能力。此外，DeepSeek-R1 还在需要理解长语境的任务中表现出色，大大超过了其他竞争对手。此外，DeepSeek-R1 还在需要理解长语境的任务中比DeepSeek-V3表现出色。

4. 方法

4.1 概述

以往的工作主要依赖大量的监督数据来提高模型性能。在本研究中，我们证明了即使不使用有监督微调（SFT）作为冷启动，也能通过大规模强化学习（RL）显著提高推理能力。此外，加入少量冷启动数据还能进一步提高性能。在下面的章节中，我们将介绍：
（1）DeepSeek-R1-Zero，它在没有任何 SFT 数据的情况下直接将 RL 应用于基础模型；
（2）DeepSeek-R1，它从使用数千个长思维链（CoT）示例进行微调的检查点开始应用 RL。
（3）将 DeepSeek-R1 的推理能力提炼为小型密集模型。

4.2. DeepSeek-R1-Zero：基础模型上的强化学习

强化学习在推理任务中表现出了显著的有效性，这在我们之前的工作中已经得到了证明。然而，这些工作在很大程度上依赖于监督数据，而监督数据的收集需要大量时间。在本节中，我们将探索 LLMs 在没有任何监督数据的情况下探索推理能力的潜力，重点关注它们通过纯强化学习过程进行自我进化的情况。首先，我们将简要介绍我们的强化学习算法，然后介绍一些令人兴奋的结果，希望能为社区提供有价值的见解。

4.2.1 强化学习算法

组相对策略优化：
为了节省强化学习的训练成本，我们采用了组相对策略优化（GRPO），它放弃了与政策模型规模相同的批评模型，而是根据群体得分来估计基线。

4.2.2 奖励建模

奖励是训练信号的来源，它决定着 RL 的优化方向。为了训练 DeepSeek-R1-Zero，我们采用了主要包含两种类型奖励的基于规则的奖励系统。

精度奖励：精度奖励模型评估响应是否正确。例如，对于结果确定的数学问题，模型需要以指定格式提供最终答案，从而实现可靠的基于规则的正确性验证。同样，对于 LeetCode 问题，编译器可根据预定义的测试用例生成反馈。
格式奖励：除了精度奖励模型外，我们还使用了一个格式奖励模型，强制模型将其思考过程放在 “< think>” 和 “” 标记之间。

在开发 DeepSeek-R1-Zero 时，我们没有使用结果或过程神经奖励模型，因为我们发现神经奖励模型在大规模强化学习过程中可能受到奖励黑客攻击的影响，而且重新训练奖励模型需要额外的训练资源，会使整个训练流程复杂化。

4.2.3 训练模板

为了训练 DeepSeek-R1-Zero，我们首先设计了一个简单明了的模板，引导基础模型遵守我们指定的指令。如表1所示，该模板要求DeepSeek-R1-Zero首先生成推理过程，然后生成最终答案。我们有意将约束限制在这种结构格式上，避免任何特定于内容的偏见，例如强制进行反思性推理或推广特定的问题解决策略，以确保我们能够在强化学习（RL）过程中准确观察模型的自然进程。
在这里插入图片描述

4.2.4 DeepSeek-R1-Zero 的性能、自我进化过程和顿悟时刻

DeepSeek-R1-Zero 的性能：
图2描述了在整个强化学习（RL）训练过程中，DeepSeek- R1-Zero在AIME 2024基准测试中的性能轨迹。如图所示，随着 RL 训练的推进，DeepSeek-R1-Zero 的性能持续稳步提升。值得注意的是，AIME 2024 的平均 pass@1 分数有了显著提高，从最初的 15.6% 跃升至令人印象深刻的 71.0%，达到了与 OpenAI-o1-0912 不相上下的性能水平。这一显著提高凸显了我们的 RL 算法在随时间优化模型性能方面的功效。
在这里插入图片描述

表2提供了DeepSeek-R1-Zero与OpenAI o1-0912模型在多个推理相关基准测试上的对比分析。研究结果表明，强化学习使DeepSeek-R1-Zero无需任何监督微调数据即可获得强大的推理能力。这一成就值得关注，因为它凸显了该模型仅通过强化学习就能有效实现学习和泛化的能力。此外，通过应用多数表决法可进一步提升DeepSeek-R1-Zero的表现。例如，在AIME基准测试中使用多数表决法时，其性能从71.0%显著提升至86.7%，从而超越OpenAI-o1-0912的表现。DeepSeek-R1-Zero无论是否使用多数表决法都能取得如此具有竞争力的性能，这充分彰显了其强大的基础能力以及在推理任务中的持续发展潜力。
在这里插入图片描述
DeepSeek-R1-Zero的自我进化过程：
该模型的自我进化过程生动展示了强化学习如何驱动模型自主提升推理能力。通过直接从基础模型启动强化学习，我们能够清晰观测模型的发展轨迹，避免有监督微调阶段的影响。这种方法为追踪模型进化提供了独特视角，特别是在处理复杂推理任务的能力演变方面。

如图3所示，DeepSeek-R1-Zero的"思考时间"在整个训练过程中持续优化。这种改进并非源于外部调整，而是模型内在能力的自然发展。通过利用可扩展的测试时计算（生成数百至数千个推理令牌），该模型能够自主掌握解决日益复杂推理任务的能力。这种计算机制使模型得以在更深的层次上探索和完善其思维过程。
在这里插入图片描述
自我进化最显著的特征之一，是随着测试时计算的增加，模型会自发涌现出复杂的行为模式。例如"反思"行为——模型会重新审视并评估其先前的推理步骤——以及主动探索替代性解题路径的能力。这些行为并非预先编程设定，而是模型与强化学习环境交互过程中自然产生的。这种自发性发展显著提升了DeepSeek-R1-Zero的推理能力，使其能以更高效率和准确率应对更具挑战性的任务。

DeepSeek-R1-Zero的"顿悟时刻"：
在模型训练过程中观察到一个特别引人深思的现象——“顿悟时刻”。如表3所示，这个关键转折点出现在模型的中间版本阶段。在此阶段，DeepSeek-R1-Zero通过重新评估初始解题思路，学会了为问题分配更长的思考时间。这种行为不仅证明了模型推理能力的持续进化，更是强化学习能够催生意外突破性进展的生动例证。这个"顿悟时刻"既属于模型自身，也属于观察其行为的研究团队。它深刻揭示了强化学习的独特魅力：无需明确指导模型如何解决问题，只需提供恰当的激励机制，模型就能自主发展出高级解题策略。这一发现有力印证了强化学习在解锁人工智能系统新维度上的潜力，为未来开发更自主、更具适应性的模型开辟了新的可能性。
在这里插入图片描述

DeepSeek-R1-Zero的局限性：
尽管DeepSeek-R1-Zero展现出强大的推理能力并自主发展出意料之外的卓越行为，其仍存在若干问题亟待解决。例如，该模型在可读性不足、语言混杂等方面面临挑战。为提升推理过程的可读性并实现开源社区共享，我们进一步探索了DeepSeek-R1方法——一种结合人类友好型冷启动数据与强化学习的技术路径。

4.3 DeepSeek-R1：基于冷启动的强化学习

受DeepSeek-R1-Zero优异表现的启发，我们提出两个关键问题：
（1）通过引入少量高质量数据作为冷启动，能否进一步提升推理性能或加速收敛？
（2）如何训练出既具备清晰连贯的思维链（CoT）生成能力，又保持强大通用性的用户友好型模型？
为解决这些问题，我们设计了包含四个阶段的DeepSeek-R1训练流程：

4.3.1 冷启动阶段

与DeepSeek-R1-Zero直接从基础模型启动强化学习不同，为避免强化学习初期不稳定性的影响，DeepSeek-R1通过构建并收集少量长思维链数据对模型进行微调，作为强化学习的初始执行器。数据采集采用多种创新方法：

使用包含长思维链的少样本提示作为范例
直接引导模型生成包含反思与验证的详细解答
将DeepSeek-R1-Zero的输出转化为可读格式
通过人工标注员进行后期精修

本研究共收集数千条冷启动数据，用于对DeepSeek-V3-Base进行微调，作为强化学习的起点。相较于DeepSeek-R1-Zero，冷启动数据的优势主要体现在：

可读性改进：DeepSeek-R1-Zero的核心局限在于其输出内容通常不具备可读性。生成的回答可能混杂多种语言，或缺乏用于突出答案的Markdown格式。针对这一问题，在构建DeepSeek-R1的冷启动数据时，我们设计了可读性模板：每段回答末尾添加总结性内容，并过滤非用户友好型响应。具体格式定义为 |special_token|<推理过程>|special_token|<总结>，其中推理过程对应查询的思维链（CoT），总结部分用于凝练推理结果。
潜力：通过融入人类先验知识精心设计冷启动数据模板，我们观察到模型性能显著优于DeepSeek-R1-Zero。这验证了迭代训练对推理模型优化的有效性。

4.3.2 推理导向的强化学习

在对DeepSeek-V3-Base完成冷启动数据微调后，我们采用与DeepSeek-R1-Zero相同的大规模强化学习流程。此阶段专注于提升模型在代码、数学、科学和逻辑推理等领域的专项能力，这些任务通常具有明确的问题定义与标准解法。

在训练过程中，我们发现思维链常出现语言混杂现象，尤其是当强化学习提示涉及多语言时。为此，我们引入语言一致性奖励机制，其计算方式为思维链中目标语言词汇的占比。消融实验表明，尽管这种对齐会导致模型性能轻微下降，但它显著提升了人类可读性。最终，我们将推理任务准确率与语言一致性奖励直接相加，形成综合奖励函数，并在微调后的模型上实施强化学习直至推理任务收敛。

4.3.3 拒绝采样与监督微调

当推理导向的强化学习收敛后，我们利用生成的检查点收集监督微调（SFT）数据用于下一轮训练。与初期专注于推理的冷启动数据不同，此阶段整合了其他领域数据以增强模型的写作、角色扮演等通用能力。具体操作流程如下：

推理数据：
我们筛选推理提示并通过拒绝采样从强化学习检查点生成推理轨迹。在前一阶段，仅包含可通过规则奖励评估的数据，而本阶段通过以下方式扩展数据集：

引入部分使用生成式奖励模型的数据，将标准答案与模型预测输入DeepSeek-V3进行评判
过滤含语言混杂、冗长段落或代码块的思维链输出
对每个提示采样多组响应，仅保留正确答案

最终共收集约60万条推理相关训练样本，为模型的多维度能力提升奠定数据基础。

非推理数据：
对于非推理类任务（如文本生成、事实问答、自我认知和翻译），我们采用DeepSeek-V3技术流程并复用其部分监督微调数据集。针对特定非推理任务，我们会调用DeepSeek-V3生成潜在的思维链（CoT）再进行回答。但对于简单查询（如问候语"hello"），则直接响应而不提供CoT。最终我们收集了约20万个与推理无关的训练样本，并基于约80万样本的精选数据集对DeepSeek-V3-Base模型进行了两轮微调。

4.3.4 全场景强化学习

为更好地实现人类价值对齐，我们实施第二阶段强化学习，旨在提升模型的有益性和无害性，同时增强其推理能力。具体通过组合奖励信号与多样化提示分布进行训练：对于推理数据，沿用DeepSeek-R1-Zero的规则奖励方法指导数学、编程和逻辑推理；对于通用数据，采用奖励模型捕捉复杂场景中的人类偏好。基于DeepSeek-V3框架，我们优化了偏好对和训练提示的分布策略：有益性评估聚焦最终结论的实用性和相关性，无害性评估则覆盖完整响应（含推理过程和结论）以识别潜在风险。通过整合奖励机制与多样化数据，成功训练出兼具推理优势和价值对齐的模型。

4.4 知识蒸馏：赋能小模型推理能力

为赋予小模型（如Qwen/Llama系列）DeepSeek-R1级别的推理能力，我们直接使用4.3.3所述80万样本进行微调。实验表明这种简洁的蒸馏方法显著提升了小模型的推理性能。基础模型选用Qwen2.5-Math-1.5B至32B系列及Llama-3.1-8B/Llama-3.3-70B-Instruct（优选推理更强的Llama-3.3）。尽管引入强化学习可进一步提升性能，但蒸馏模型仅采用监督微调，将强化学习的探索空间留给学界。

5. 实验

5.1 DeepSeek-R1评估结果

在教育知识类基准（MMLU系列、GPQA Diamond）中，DeepSeek-R1相比V3版本展现显著优势，这主要归功于大规模强化学习（RL）带来的STEM问题准确率提升。在长文本QA任务FRAMES上的优异表现，验证了其强大的文档分析能力，彰显推理模型在智能搜索领域的潜力。

事实类基准SimpleQA测试中，DeepSeek-R1超越V3版本，与OpenAI-o1优于GPT-4o的趋势一致。但在中文版C-SimpleQA上，由于安全强化学习导致的应答回避倾向，性能略低于V3（关闭安全RL后准确率可超70%）。

在格式指令遵循测试IF-Eval中，DeepSeek-R1的突破性表现得益于监督微调（SFT）和RL阶段注入的指令遵循数据。AlpacaEval2.0和ArenaHard测试显示，该模型在写作和开放域问答方面具有显著优势（平均输出长度分别为689 tokens和2,218字符），证明大规模RL不仅增强推理能力，还提升跨领域泛化性能。

数学任务表现与OpenAI-o1-1217持平，显著领先其他模型。编程算法类基准（LiveCodeBench、Codeforces）同样由推理优化模型主导。在工程类编程任务中，OpenAI-o1-1217在Aider上占优，但双方在SWE Verified表现相当。我们预计下个版本将增加相关RL训练数据以提升工程能力。
在这里插入图片描述

5.2 蒸馏模型评估结果

如表5所示，通过直接蒸馏DeepSeek-R1的输出，高效的小模型DeepSeek-R1-7B（即DeepSeek-R1-Distill-Qwen-7B，下文采用类似简称）即可全面超越GPT-4o-0513等非推理优化模型。DeepSeek-R1-14B在全部指标上超越QwQ-32B-Preview，而DeepSeek-R1-32B和DeepSeek-R1-70B在多数基准测试中显著优于o1-mini。这些结果印证了知识蒸馏技术的强大潜力。值得注意的是，若对蒸馏模型施加强化学习（RL），性能可获进一步跃升。但为突出蒸馏本身的效果，本文仅展示基础SFT蒸馏模型的实验结果。
在这里插入图片描述

6. 讨论

6.1 知识蒸馏 vs 强化学习

实验表明，通过蒸馏DeepSeek-R1可使小模型取得卓越性能。但遗留一个关键问题：若不采用蒸馏，仅依赖论文所述的大规模RL训练，能否使模型达到可比性能？
在这里插入图片描述
为解答此问题，我们对Qwen-32B-Base进行数学、编程与STEM领域的大规模RL训练（超10,000步），得到DeepSeek-R1-Zero-Qwen-32B。表6显示，经大规模RL训练的32B基础模型性能与QwQ-32B-Preview持平，而通过蒸馏DeepSeek-R1获得的DeepSeek-R1-Distill-Qwen-32B则在所有基准上显著优于前者。由此可得以下结论：

知识蒸馏优势：通过蒸馏强模型赋能小模型效果显著，而依赖纯RL训练的小模型需消耗海量算力且难以匹敌蒸馏效果；

技术路径选择：尽管蒸馏策略经济高效，但突破智能边界仍需更强基础模型与更大规模RL支持。

6.2 失败实验分析

在DeepSeek-R1研发初期，我们经历了若干失败尝试。本节分享关键教训（注：这并不否定相关方法的潜力）。

过程奖励模型（PRM）：
PRM本是指引模型优化推理路径的合理方法，但实际应用中存在三重局限：

步骤定义模糊：通用推理任务中难以明确定义细粒度步骤；
中间状态判定难：自动标注效果欠佳，人工标注难以规模化；
奖励篡改风险：引入模型驱动的PRM易引发奖励作弊，且需额外资源迭代奖励模型，增加训练复杂度。

综上，PRM虽能辅助模型对Top-N响应重排序或引导搜索，但在大规模RL场景中性价比有限。

蒙特卡洛树搜索（MCTS）：
受AlphaGo与AlphaZero启发，我们尝试将MCTS用于增强测试时计算扩展性。该方法将答案分解为子模块，引导模型系统性探索解空间。具体流程：
推理阶段：提示模型生成与搜索步骤关联的多级标记；
训练阶段：基于预训练价值模型引导MCTS搜索答案，用所得QA对迭代优化策略模型与价值模型。

然而规模化训练中暴露两大挑战：
搜索空间爆炸：相比围棋的有限状态，文本生成的搜索空间呈指数级膨胀，设置节点扩展上限易陷入局部最优；
价值模型瓶颈：指导搜索的价值模型需细粒度训练，但其性能提升困难，阻碍模型迭代优化。

尽管AlphaGo通过价值模型迭代提升性能，但文本生成的复杂性使该机制难以复现。
结论：MCTS虽能结合预训练价值模型提升推理表现，但通过自搜索持续增强模型仍面临重大挑战。

7. 结论、局限性与未来工作

本研究系统阐述了通过强化学习（RL）提升模型推理能力的完整技术路径。DeepSeek-R1-Zero作为纯RL驱动方案（无需冷启动数据支撑），在多任务场景中展现出强劲性能；而融合冷启动数据与迭代式RL微调的DeepSeek-R1则实现更高突破，在多项任务上达到与OpenAI-o1-1217相当的基准水平。

我们进一步探索了推理能力向小型密集模型的迁移：以DeepSeek-R1作为教师模型生成80万训练样本，对多个小模型进行微调。实验成果显著：
DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试中全面超越GPT-4o与Claude-3.5-Sonnet（AIME得分28.9%，MATH得分83.9%）
其他蒸馏模型相较同参数规模的指令微调模型亦展现出显著优势。

未来计划围绕以下方向深化研究：
通用能力：
当前DeepSeek-R1在函数调用、多轮对话、复杂角色扮演及JSON输出等场景性能不及DeepSeek-V3。下一步将探索引入长思维链（CoT）增强此类任务表现。

多语言混杂问题：
现版本主要优化中英文场景，处理其他语言查询时可能出现推理与响应语言不匹配现象（如使用英语回应非中英文问题）。后续版本将针对性改进。

提示工程敏感性：
评估发现模型对提示词设计敏感，少样本提示易导致性能下降。建议用户直接采用零样本设置描述问题并明确输出格式以获得最优结果。

软件工程任务优化：
因评估耗时影响RL流程效率，大规模RL尚未充分应用于软件工程领域，导致当前版本在相关基准上提升有限。计划通过以下方案改进：
对软件工程数据实施拒绝抽样（reject sampling）；在RL过程中引入异步评估机制提升效率。

相关链接：
DeepSeek-R1论文地址
DeepSeek 网页版（R1已可使用）
HuggingFace 链接
DeepSeek官网