Arena AI模型ELO历史：揭示实验室模型更新中的隐藏趋势

📅 2026 年 5 月 14 日 📖 约 2 分钟 mayerwin.github.io AI研究工程

Arena AI Model ELO History

## 为什么存在这个图表？
AI实验室经常在发布后更新他们的模型。这些更新有时会引入“削弱”（nerfs），例如激进的审查、过度的量化（为节省计算成本），或行为退化。这张图表暴露了这些隐藏的趋势。

关于网页界面与API的说明：LMSYS Arena通过API端点（“原始”模型）测试模型性能。消费者聊天界面（如gemini.com或chatgpt.com）通常会添加原始API中不存在的系统提示、安全过滤器和特定界面的封装层。提供商也可能为了在高峰负载期间节省计算资源，静默切换到量化（低精度）版本的模型，导致API基准测试无法完全捕捉到的“削弱”感知。欢迎提交代表真实网页界面评估的数据源的PR。

## 数据从哪里来？
数据每天自动从Hugging Face上的官方LM Arena排行榜数据集获取。Arena依赖于数千次盲测、众包的人类评估，使其成为衡量实际模型能力最稳健的指标。

## 图表逻辑如何工作？
每个主要AI实验室正好有一条曲线，代表其旗舰系列。在每个时间点，曲线追踪该实验室在排行榜上评分最高的符合旗舰资格的模型——而不仅仅是最新发布的那个。

- 最高ELO旗舰模型：如果实验室发布了一个中档模型（如Sonnet），而更高级模型（如Opus）仍然是表现最佳的，曲线会停留在Opus上。
- 推理模式变体合并：后缀如-thinking、-reasoning和-high代表同一底层模型的不同模式——它们被合并，以避免曲线在它们之间来回跳动。
- 新发布：以带有标签的标记点显示，通常伴有分数跳升。
- 退化：模型生命周期中，发布之间的任何下降趋势都清晰可见。

阅读原文

📚 相关主题研究工程

📬 订阅 AI Pulse