AI Pulse

Arena AI模型ELO历史:揭示实验室模型更新中的隐藏趋势

Arena AI Model ELO History

## 为什么存在这个图表? AI实验室经常在发布后更新他们的模型。这些更新有时会引入“削弱”(nerfs),例如激进的审查、过度的量化(为节省计算成本),或行为退化。这张图表暴露了这些隐藏的趋势。

关于网页界面与API的说明:LMSYS Arena通过API端点(“原始”模型)测试模型性能。消费者聊天界面(如gemini.com或chatgpt.com)通常会添加原始API中不存在的系统提示、安全过滤器和特定界面的封装层。提供商也可能为了在高峰负载期间节省计算资源,静默切换到量化(低精度)版本的模型,导致API基准测试无法完全捕捉到的“削弱”感知。欢迎提交代表真实网页界面评估的数据源的PR。

## 数据从哪里来? 数据每天自动从Hugging Face上的官方LM Arena排行榜数据集获取。Arena依赖于数千次盲测、众包的人类评估,使其成为衡量实际模型能力最稳健的指标。

## 图表逻辑如何工作? 每个主要AI实验室正好有一条曲线,代表其旗舰系列。在每个时间点,曲线追踪该实验室在排行榜上评分最高的符合旗舰资格的模型——而不仅仅是最新发布的那个。

- 最高ELO旗舰模型:如果实验室发布了一个中档模型(如Sonnet),而更高级模型(如Opus)仍然是表现最佳的,曲线会停留在Opus上。 - 推理模式变体合并:后缀如-thinking、-reasoning和-high代表同一底层模型的不同模式——它们被合并,以避免曲线在它们之间来回跳动。 - 新发布:以带有标签的标记点显示,通常伴有分数跳升。 - 退化:模型生命周期中,发布之间的任何下降趋势都清晰可见。

📎 阅读原文 · mayerwin.github.io

📬 订阅 AI Pulse

每天两次更新,不错过重要信号

▲ 回到顶部