AI Pulse

强化学习

1 篇文章 · 3 条要点 · 6 条信号 · 持续更新

📡 7B小模型当上了GPT-5的老板 𝕏2026 年 5 月 12 日
📡 UCLA教授把RL+LLM训练拆成手把手教程 𝕏2026 年 5 月 11 日
📡 GPT-5.4没训练,靠改代码打满分砖块 𝕏2026 年 5 月 9 日
💡 教程采用代码先行方法,从CartPole游戏和PPO算法入门 2026 年 5 月 8 日
💡 内容延伸至LLM后训练,涵盖RLHF、DPO、GRPO等对齐方法 2026 年 5 月 8 日
💡 教程为草稿版,RLHF和Agentic RL部分仍在本地审校中 2026 年 5 月 8 日
📖 不用啃公式,写代码就能从CartPole玩到RLHF AI教程2026 年 5 月 8 日
📡 训练AI代理不用手写奖励函数了 𝕏2026 年 4 月 29 日
📡 RL微调让大模型过早‘死机’? 𝕏2026 年 4 月 24 日
📡 经验回放能让大模型训练省掉四成算力 𝕏2026 年 4 月 15 日

📬 订阅 AI Pulse

每天两次更新,不错过重要信号

▲ 回到顶部