AI Pulse

强化学习

14 条信号 · 持续更新

📡

整理了10款用于智能体强化学习的开源工具

𝕏2026 年 6 月 22 日
📡

PPO算法在大语言模型时代迎来第二发展浪潮

𝕏2026 年 6 月 18 日
📡

HomeMadeGarbage用OpenAI Codex构建具生物特征的交互机器人

𝕏2026 年 6 月 14 日
📡

Kyutai实验室用强化学习优化全双工语音模型交互性

𝕏2026 年 6 月 11 日
📡

新方法QGF优化扩散策略训练,避开BPTT不稳定性

𝕏2026 年 6 月 11 日
📡

SAERL用稀疏自编码器激活指导大模型训练数据工程

𝕏2026 年 5 月 28 日
📡

RL微调居然在拖大模型推理后腿

𝕏2026 年 5 月 23 日
📡

7B小模型当上了GPT-5的老板

𝕏2026 年 5 月 12 日
📡

UCLA教授把RL+LLM训练拆成手把手教程

𝕏2026 年 5 月 11 日
📡

GPT-5.4没训练,靠改代码打满分砖块

𝕏2026 年 5 月 9 日
📡

不用啃公式,写代码就能从CartPole玩到RLHF

𝕏2026 年 5 月 8 日
📡

训练AI代理不用手写奖励函数了

𝕏2026 年 4 月 29 日
📡

RL微调让大模型过早‘死机’?

𝕏2026 年 4 月 24 日
📡

经验回放能让大模型训练省掉四成算力

𝕏2026 年 4 月 15 日

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部