告别手动查参数，一个命令自动找到最适合你的本地大模型

📅 2026 年 5 月 15 日 📖 约 8 分钟 GitHub AI开源工程

一个叫whichllm的开源命令行工具专门解决这个问题。它自动检测你的GPU、CPU和内存，然后从HuggingFace模型库里排名出最适合你硬件的模型。排名依据不是参数量——参数量大的模型不一定好用——而是综合了LiveBench、Chatbot Arena ELO、Aider等多套真实基准测试得分。旧基准会被降权，2024年的模型不会因为过时分数压过新一代模型。

每个得分都标注了证据等级：直接测试、变体、基础模型、插值还是自报。虚假上传者声明和跨家系继承会被主动拒绝。显存估算也不简单。它算了权重、GQA KV缓存、激活值和框架开销。速度则基于带宽，并考虑了量化效率、后端因素、MoE活跃参数量与总参数量的拆分，还有统一内存与PCIe部分卸载的建模。

一个典型例子：在RTX 4090上，排名第一的是Qwen3.6-27B（量化Q5_K_M，得分92.8，速度约27 token/s）。第二名是Qwen3-32B（得分83.0，速度约31 token/s）。第三名是Qwen3-30B-A3B（得分82.7，速度约102 token/s）。32B明明能装得下，

📎 阅读原文 · GitHub

📬 订阅 AI Pulse