AI Pulse

不用啃公式,写代码就能从CartPole玩到RLHF

作者写了一本叫 Hands-On Modern RL 的教程。他用的是"代码先行"的路子,公式只用来解释现象,不是先让你啃一遍公式再动手。

路线是这样的:从 CartPole 游戏和 PPO 算法入门,然后延伸到 LLM 的后训练阶段——包括 RLHF、DPO、GRPO 这些让大模型对齐人类偏好的方法,最后进入 Agentic RL。英文版已经在路上了。

目前还是草稿版。RLHF 和 Agentic RL 这两个最前沿的部分还在本地审校中。作者提到,想一个好的 agentic 例子不容易,构建轨迹需要方法。

教程已经挂在 GitHub 上,PDF 版本页头页尾都加了出处水印。作者欢迎提 PR 或 Issue,也希望能有显卡支持来跑实验。"为了 AGI 做什么都是值得的。"

GitHub 地址:https://t.co/PtgSByY96U。

阅读原文
📚 相关主题 教程强化学习

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部