AI Pulse
📡 X 信号

有人在M3 Ultra上本地跑通了GLM 5.2

终于在我的 M3 Ultra 本地跑起来 GLM5.2 了!冒烟测试得到 15 tps。

别忘了调高有线内存限制:
`sudo sysctl iogpu.wired_limit_mb=512000`

顺便说,运行 GLM5.2 的时候机器还能用,我后台还跑了其他几个小模型,比如 tts、asr、embedding。

`export HF_HUB_ENABLE_HF_TRANSFER=0`
`export HF_XET_HIGH_PERFORMANCE=1`
`hf download unsloth/GLM-5.2-GGUF \`
`--include "UD-Q4_K_XL/*" \`
`--local-dir "$DEST"`

`llama-server \`
`--model "$M" \`
`--alias GLM-5.2-UD-Q4_K_XL \`
`-ngl 999 \`
`--ctx-size 524288 \`
`--parallel 1 \`
`--temp 1.0 \`
`--top-p 0.95 \`
`--jinja \`
`--host 0.0.0.0 --port 8090 \`
`--no-mmap`

本文由 AI 翻译自英文原帖,技术名词保留英文。

查看 X 原帖

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部