AI Pulse

强化学习

9 条信号 · 持续更新

📡

SAERL用稀疏自编码器激活指导大模型训练数据工程

𝕏2026 年 5 月 28 日
📡

RL微调居然在拖大模型推理后腿

𝕏2026 年 5 月 23 日
📡

7B小模型当上了GPT-5的老板

𝕏2026 年 5 月 12 日
📡

UCLA教授把RL+LLM训练拆成手把手教程

𝕏2026 年 5 月 11 日
📡

GPT-5.4没训练,靠改代码打满分砖块

𝕏2026 年 5 月 9 日
📡

不用啃公式,写代码就能从CartPole玩到RLHF

𝕏2026 年 5 月 8 日
📡

训练AI代理不用手写奖励函数了

𝕏2026 年 4 月 29 日
📡

RL微调让大模型过早‘死机’?

𝕏2026 年 4 月 24 日
📡

经验回放能让大模型训练省掉四成算力

𝕏2026 年 4 月 15 日

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部