DeepSeek-R1真算得上开源吗？

JavaEdge

发布于 2025-06-01 11:59:30

1380

文章被收录于专栏：JavaEdgeJavaEdge

点击下方“JavaEdge”，选择“设为星标”

第一时间关注技术干货！

免责声明~ 任何文章不要过度深思！万事万物都经不起审视，因为世上没有同样的成长环境，也没有同样的认知水平，更「没有适用于所有人的解决方案」；不要急着评判文章列出的观点，只需代入其中，适度审视一番自己即可，能「跳脱出来从外人的角度看看现在的自己处在什么样的阶段」才不为俗人。怎么想、怎么做，全在乎自己「不断实践中寻找适合自己的大道」

1 什么是 DeepSeek-R1？

如果你曾经为一道棘手的数学题绞尽脑汁，就会明白多花时间仔细思考是多么重要。OpenAI 的 o1 模型证明，当 LLM 在推理时通过增加计算量进行类似训练后，它们在数学、编程和逻辑等推理任务上的表现会显著提升。

然而，OpenAI 推理模型的训练方法一直是个秘密。直到上周，DeepSeek 发布 [DeepSeek-R1]模型，瞬间引爆互联网（甚至影响了股市！）。

除了性能达到或超越 o1 之外，DeepSeek-R1 的发布还附带了详细的技术报告，揭示了其训练方法的关键步骤。该方法包含多项创新，最引人注目的是使用纯强化学习让基础语言模型学会推理而无需**任何**人工监督。如下图所示，只要拥有强大的基础模型和高质量的数据混合，构建强大的推理模型就变得非常简单：

不过，DeepSeek-R1 的发布仍留下几个未解之谜：

数据收集：推理专用数据集是如何构建的？
模型训练：DeepSeek 未公开训练代码，因此最佳超参数设置及其在不同模型系列和规模间的差异尚不明确。
扩展规律：训练推理模型时计算资源和数据量之间如何权衡？

这些问题促使业界启动了 Open-R1 项目，旨在系统性复现 DeepSeek-R1 的数据和训练流程，验证其声明，并推动开源推理模型的边界。通过构建 Open-R1，希望揭示强化学习如何增强推理能力，与开源社区分享可复现的经验，并为未来模型应用这些技术奠定基础。

本文深入探讨 DeepSeek-R1 的核心要素、计划复现的部分，及如何参与 Open-R1 项目。

2 他们是如何做到的？

DeepSeek-R1 是基于 [DeepSeek-V3] 打造的推理模型。与所有优秀的推理模型一样，它始于一个强大的基础模型——DeepSeek-V3 正是如此。这个 671B 的混合专家模型（MoE）性能媲美 Sonnet 3.5 和 GPT-4o 等重量级选手。其训练成本仅 550 万美元，这得益于多令牌预测（MTP）、多头潜在注意力（MLA）等架构改进和大量的硬件优化。

DeepSeek 推出了两个模型：DeepSeek-R1-Zero 和 DeepSeek-R1，分别采用不同的训练方法。DeepSeek-R1-Zero 完全跳过监督微调，仅通过强化学习（RL）和组相对策略优化（GRPO）实现高效训练。简单的奖励机制根据答案的准确性和结构提供反馈，帮助模型发展出分步推理和自我验证等能力，但其回答常缺乏清晰度。

这就是 DeepSeek-R1 的改进之处。它通过"冷启动"阶段在小规模精编数据上进行微调，提升回答的清晰度和可读性。随后通过更多 RL 和精炼步骤（包括基于人类偏好和可验证奖励的低质量输出过滤），最终形成既擅长推理又能生成优雅答案的模型。