一门新课把大模型当嫌疑人审：它到底有没有在说谎？

📅 2026 年 4 月 10 日 📖 约 1 分钟 @ChenhaoTan on 𝕏 AI教育研究

Chenhao Tan 正在本季度教授一门名为《Large Language Models》的新课程。课程没设门槛，所有材料——包括作业和参考实现——都已开源并托管在 GitHub 上。

这门课默认学生该关心“模型是否在说谎”，而不是如何优化传统指标。整门课围绕三个问题展开：模型内部的决策能不能被人类看懂？它输出的答案和人类真实意图之间有没有偏差？它能不能自己拆解任务、调用工具、完成闭环？

教学重心正从“怎么让模型跑起来”转向“怎么知道它为什么这么跑”。课程大纲里连 Transformer 推导都只占一页。

算力由 Modal 提供，这是一家专注 AI 原生基础设施的公司。学生通过 API 调用就能复现论文里的归因热力图或偏好建模流程，不用自建集群或抢 GPU。

客座讲师来自学术界和工业界，有人专攻可解释性，有人长期研究对齐失败案例。课程也提到了 reward hacking 和 RLHF pipeline。

行业正在把“可信”从附加题变成必答题。