AI模型排行榜速度飙升,可像网购一样筛选对比
选AI模型最烦排行榜慢到点不开。MTEB(文本嵌入基准测试)的老榜因为模型和基准越来越多,加载越来越慢,还经常崩。现在开发者用FastAPI和Svelte重写了排行榜,速度快了一个量级,手机上都流畅。
首页按模型大小分组展示顶级模型,同时给性能与运行时分析。想找手机上能跑的小模型?直接看小尺寸组里的佼佼者,不用被大模型的高分带偏。
筛选功能很实用。支持按领域(分类、聚类)、语言、模态(文本、图像等)甚至单个任务过滤。比如你只需要中文翻译任务的模型,几秒筛出来。选中模型,悬停看详情,还能固定多个模型,点“对比固定模型”按钮,直接头对头比较。跟网购比价一个感觉。
排行榜集成了Hugging Face数据集查看器,可以检查每个任务的数据和元数据。更重要的是,会标注模型是不是在任务训练集上训练过——如果是第一次见(零样本),分数更可信;如果是见过的数据,结果可能是记忆而非泛化。这能帮你避开刷榜出来的“假分数”。
想集成到自己的工具里?可以下载CSV或直接调API。API地址:https://mteb-leaderboard-backend.hf.space/docs。发现bug或有建议,GitHub提交就行,团队欢迎反馈。
目前还不清楚是否支持自定义添加模型或任务,API调用频率和认证方式也没公布。另外,排行榜只覆盖MTEB基准里的模型,不是所有AI模型;过滤功能可能没法精确匹配所有需求;实际部署前,还是得在自己数据上验证。
不过这次升级让模型选型从“看榜猜”变成了“动手选”——主动筛选、对比、看细节,选模型这件事终于没那么折磨了。