强化学习

14 条信号 · 持续更新

📡

整理了10款用于智能体强化学习的开源工具

𝕏2026 年 6 月 22 日

📡

PPO算法在大语言模型时代迎来第二发展浪潮

𝕏2026 年 6 月 18 日

📡

HomeMadeGarbage用OpenAI Codex构建具生物特征的交互机器人

𝕏2026 年 6 月 14 日

📡

Kyutai实验室用强化学习优化全双工语音模型交互性

𝕏2026 年 6 月 11 日

📡

新方法QGF优化扩散策略训练，避开BPTT不稳定性

𝕏2026 年 6 月 11 日

📡

SAERL用稀疏自编码器激活指导大模型训练数据工程

𝕏2026 年 5 月 28 日

📡

RL微调居然在拖大模型推理后腿

𝕏2026 年 5 月 23 日

📡

7B小模型当上了GPT-5的老板

𝕏2026 年 5 月 12 日

📡

UCLA教授把RL+LLM训练拆成手把手教程

𝕏2026 年 5 月 11 日

📡

GPT-5.4没训练，靠改代码打满分砖块

𝕏2026 年 5 月 9 日

📡

不用啃公式，写代码就能从CartPole玩到RLHF

𝕏2026 年 5 月 8 日

📡

训练AI代理不用手写奖励函数了

𝕏2026 年 4 月 29 日

📡

RL微调让大模型过早‘死机’？

𝕏2026 年 4 月 24 日

📡

经验回放能让大模型训练省掉四成算力

𝕏2026 年 4 月 15 日