告别手动查参数,一个命令自动找到最适合你的本地大模型
一个叫whichllm的开源命令行工具专门解决这个问题。它自动检测你的GPU、CPU和内存,然后从HuggingFace模型库里排名出最适合你硬件的模型。排名依据不是参数量——参数量大的模型不一定好用——而是综合了LiveBench、Chatbot Arena ELO、Aider等多套真实基准测试得分。旧基准会被降权,2024年的模型不会因为过时分数压过新一代模型。
每个得分都标注了证据等级:直接测试、变体、基础模型、插值还是自报。虚假上传者声明和跨家系继承会被主动拒绝。显存估算也不简单。它算了权重、GQA KV缓存、激活值和框架开销。速度则基于带宽,并考虑了量化效率、后端因素、MoE活跃参数量与总参数量的拆分,还有统一内存与PCIe部分卸载的建模。
一个典型例子:在RTX 4090上,排名第一的是Qwen3.6-27B(量化Q5_K_M,得分92.8,速度约27 token/s)。第二名是Qwen3-32B(得分83.0,速度约31 token/s)。第三名是Qwen3-30B-A3B(得分82.7,速度约102 token/s)。32B明明能装得下,