不用啃公式,写代码就能从CartPole玩到RLHF
作者写了一本叫 Hands-On Modern RL 的教程。他用的是"代码先行"的路子,公式只用来解释现象,不是先让你啃一遍公式再动手。
路线是这样的:从 CartPole 游戏和 PPO 算法入门,然后延伸到 LLM 的后训练阶段——包括 RLHF、DPO、GRPO 这些让大模型对齐人类偏好的方法,最后进入 Agentic RL。英文版已经在路上了。
目前还是草稿版。RLHF 和 Agentic RL 这两个最前沿的部分还在本地审校中。作者提到,想一个好的 agentic 例子不容易,构建轨迹需要方法。
教程已经挂在 GitHub 上,PDF 版本页头页尾都加了出处水印。作者欢迎提 PR 或 Issue,也希望能有显卡支持来跑实验。"为了 AGI 做什么都是值得的。"
GitHub 地址:https://t.co/PtgSByY96U。