AI Pulse

古德哈特定律正在毁掉AI模型:过度拟合与基准迷思

古德哈特定律正在毁掉AI模型:过度拟合与基准迷思

Goodhart's law is ruining models TLDR; https://vibebench.standardagents.ai

我从事专业编程已经大约20年了,坦白讲,我现在已经不怎么“写代码”了——如果“写代码”指的是在键盘上敲语法的话。奇怪的是,我并不觉得自己能力下降,也不觉得自己不再像工程师。实际上,我很兴奋,因为身边的种种瓶颈正在被消除。所以,是的,我不担心AI会抢走我的工作。它已经抢走了我的编程工作,而我依然热爱我的工作。但我担心的是另一件事:过拟合。

作为资深工程师,我当然想要更好的模型和智能体!我能放心委托的任务越多,就能做更多真正的工程工作,架构更有价值的系统。不幸的是,最近的模型被过度吹捧、过度拟合、刷爆基准测试,同时价格还在上涨。为什么?因为古德哈特定律正在现实中上演: “一旦某个指标成为目标,它就不再是一个好的指标。”

我们把这些基准测试当作模型效能的衡量标准,但在过程中,我们最终毁掉了这个衡量标准,也污染了训练过程。目前真正的信号来自像这里、Reddit或者传说中的饮水机旁。有经验的工程师几乎能瞬间感知模型的好坏。这甚至对我们来说并不难——就像技能上的恐怖谷效应——我们只需用上一天,就能“感觉”出一个模型是好是坏。

我认为科技行业犯了一个错误。我们过分地把“AI革命”所需的工程工作委托给了数据科学家。为了让AI普及到普通人,大量的工程工作必不可少,而目前已经大错特错了。我不想浪费你有限的注意力,所以就不列举AI实验室自己发布的大量低质量代码的例子了,因为我觉得我们都明白。

邓宁-克鲁格效应当然也与此有关。我们面对的是“特定领域能力低的人系统性地高估自己能力”的倾向——那些自己不写代码的数据科学家认为模型在编程方面的能力比实际强得多。毕竟,模型在基准测试上表现很好。我这么说不是想伤人,而是作为建设性的指导,附带一个提议:一种新的主观衡量标准。

你知道那种“感觉”吗?就是资深工程师在新模型发布后的头几天里都会有的那种感觉——Opus在UI上很棒,但难以专注任务;GPT可以连续数小时专注于任务,但设计的UI跟2001年的差不多;Gemini干脆…不好使。这些“感觉”不会出现在基准测试中。我认为我们应该改变这一点。

我们需要一个主观的“基准测试”,利用那些已开发出编程智能体恐怖谷探测器的资深工程师的相对评估。一个“VibeBench”。当新模型发布时(甚至在发布前,如果实验室配合的话),一组资深工程师花几天时间用这个模型做他们的常规工作,然后报告他们的发现,这些主观数据最终会被整理成客观结果。

所以,我们的团队把它做出来了。但……我们需要大量有经验的开发者注册才能让它成为现实。所以,如果你是一名资深开发者,请加入我们!让我们从噪声中带回一些信号。 https://vibebench.standardagents.ai

📎 阅读原文 · @jpschroeder on 𝕏

📬 订阅 AI Pulse

每天两次更新,不错过重要信号

▲ 回到顶部