有人在M3 Ultra上本地跑通了GLM 5.2
终于在我的 M3 Ultra 本地跑起来 GLM5.2 了!冒烟测试得到 15 tps。
别忘了调高有线内存限制:
`sudo sysctl iogpu.wired_limit_mb=512000`
顺便说,运行 GLM5.2 的时候机器还能用,我后台还跑了其他几个小模型,比如 tts、asr、embedding。
`export HF_HUB_ENABLE_HF_TRANSFER=0`
`export HF_XET_HIGH_PERFORMANCE=1`
`hf download unsloth/GLM-5.2-GGUF \`
`--include "UD-Q4_K_XL/*" \`
`--local-dir "$DEST"`
`llama-server \`
`--model "$M" \`
`--alias GLM-5.2-UD-Q4_K_XL \`
`-ngl 999 \`
`--ctx-size 524288 \`
`--parallel 1 \`
`--temp 1.0 \`
`--top-p 0.95 \`
`--jinja \`
`--host 0.0.0.0 --port 8090 \`
`--no-mmap`
本文由 AI 翻译自英文原帖,技术名词保留英文。
查看 X 原帖