AI Pulse

一门新课把大模型当嫌疑人审:它到底有没有在说谎?

Chenhao Tan 正在本季度教授一门名为《Large Language Models》的新课程。课程没设门槛,所有材料——包括作业和参考实现——都已开源并托管在 GitHub 上。

这门课默认学生该关心“模型是否在说谎”,而不是如何优化传统指标。整门课围绕三个问题展开:模型内部的决策能不能被人类看懂?它输出的答案和人类真实意图之间有没有偏差?它能不能自己拆解任务、调用工具、完成闭环?

教学重心正从“怎么让模型跑起来”转向“怎么知道它为什么这么跑”。课程大纲里连 Transformer 推导都只占一页。

算力由 Modal 提供,这是一家专注 AI 原生基础设施的公司。学生通过 API 调用就能复现论文里的归因热力图或偏好建模流程,不用自建集群或抢 GPU。

客座讲师来自学术界和工业界,有人专攻可解释性,有人长期研究对齐失败案例。课程也提到了 reward hacking 和 RLHF pipeline。

行业正在把“可信”从附加题变成必答题。

📎 阅读原文 · @ChenhaoTan on 𝕏