不用啃公式，写代码就能从CartPole玩到RLHF

📅 2026 年 5 月 8 日 📖 约 1 分钟 @sanbuphy on 𝕏 AI教程强化学习

作者写了一本叫 Hands-On Modern RL 的教程。他用的是"代码先行"的路子，公式只用来解释现象，不是先让你啃一遍公式再动手。

路线是这样的：从 CartPole 游戏和 PPO 算法入门，然后延伸到 LLM 的后训练阶段——包括 RLHF、DPO、GRPO 这些让大模型对齐人类偏好的方法，最后进入 Agentic RL。英文版已经在路上了。

目前还是草稿版。RLHF 和 Agentic RL 这两个最前沿的部分还在本地审校中。作者提到，想一个好的 agentic 例子不容易，构建轨迹需要方法。

教程已经挂在 GitHub 上，PDF 版本页头页尾都加了出处水印。作者欢迎提 PR 或 Issue，也希望能有显卡支持来跑实验。"为了 AGI 做什么都是值得的。"

📚 相关主题教程强化学习

📬 订阅 AI Pulse