Author: ninehills
Labels: blog
Created: 2025-01-29T04:48:48Z
Link and comments: #121
DeepSeek R1 相关资料,全部被我个人阅读并精选,不是简单的罗列。
更新时间:2025.3.1
- 文章
- Reasoning best practices:【重点】 OpenAI 的思考模型最佳实践,必看。
- Greg 的 思考模型 Prompt:
- Understanding Reasoning LLMs:偏学术一些的文章。
- A Visual Guide to Reasoning LLMs:【重点】 非常棒的介绍,可视化做的很好。
- DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any Prior Reinforcement Learning Knowledge:GRPO 算法的非数学理解,适合非算法方向的。
- 论文
- DeepSeek R1:**【重点】**DeepSeek R1 本体论文,写的引人入胜。
- Kimi K1.5:Kimi K1.5 推理模型的思路和 R1 类似,在数据和奖励函数上有更多的细节。
- DeepSeek Math:GRPO 算法的提出,GRPO 相比于 PPO 节约了 Value Model,从而降低了训练的显存要求。
- SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training:对 SFT 和 RL 效果和应用方向的研究,但是结论仅供参考,还需要大量的实践。
- 最近有大量的 Reasoning Model 论文,但是经得起时间考验还没有,后续随着阅读逐渐增加。
- GRPO 开源实现:主要是要支持 reward function。
- trl grpo trainer:TRL 的 GRPOTrainer 实现
- veRL:字节开源的 RL 实现,也支持 GRPO reward function。
- Unsloth:**【重点】**Unsloth 的 GRPO 实现,可大幅减少显存使用。
- verifiers:封装好的一些验证器。
- R1 复刻项目、数据集
- open-r1:**【重点】**包括数据合成、SFT、GRPO RL 的代码。
- TinyZero:在简单的类24点问题上复刻 R1 RL 范式。
- SkyT1:蒸馏的 QwQ 的数据实现的 o1-like 模型。
- HuatuoGPT-o1:医学领域复刻 o1(开放代码、数据、论文和模型),但是用的还是 reward model,效果提升很少。可以用 R1 RL 范式看看能否有明显提升。
- simpleRL-reason:【重点】 在 8k MATH 数据集上复刻 R1-Zero 的范式
- open-r1-multimodal:R1 多模态的复刻项目
- open-thoughts:【重点】 最成熟的 R1 复刻项目,已经发布了 Bespoke-Stratos-17k dataset 和 OpenThoughts-114k dataset 项目,仅经过 SFT 即可以逼近 R1-distill 模型
- R1-Distill-SFT:1.68M 条 R1 蒸馏数据集
- grpo_demo.py:【重点】 基于 0.5B 模型的 RL demo,可以用来学习怎么训练。
- Chinese-DeepSeek-R1-Distill-data-110k:中文蒸馏数据集