谷歌推新量化格式,Gemma 4手机端内存不到1GB
Gemma 4 发布两个月后,谷歌拿出了新东西:用量化感知训练(QAT)优化过的检查点。QAT 的思路是在训练阶段就模拟量化过程,提前算出最优缩放设置,这样模型被压缩时质量损失更小——相比标准的后训练量化(PTQ),QAT 能拿到更高的整体质量。
这次发布包含两种量化格式。一种是 Q4_0,已经比较常见;另一种是专为移动端设计的新格式。用了后者之后,Gemma 4 E2B 的内存占用降到 1GB。如果只需要文本能力,还可以进一步拆掉音频和视觉编码器——纯文本的 E2B 模型(不含逐层嵌入)内存不到 1GB。
移动专用格式做了几件事。静态激活——训练时预计算缩放设置,减少手机芯片的运算负担,响应更快。通道级量化——手机直接跑原生计算,不用绕路。目标 2 位量化——生成 token 的部分压到 2 位,核心推理层保持高精度。嵌入和 KV 缓存优化——减少活动内存占用,支持长时间对话不会撑爆内存。
这些检查点已经放到了 Hugging Face 上,有 GGUF 格式(搭配 llama.cpp)、压缩张量(用于 vLLM),也有未量化版本。桌面端可以通过 llama.cpp、Ollama 或 LM Studio 本地跑起来;移动端用 LiteRT-LM 运行时或者浏览器里的 Transformers.js 部署。开发工具方面支持 SGLang、vLLM、MLX,还有 MTP QAT 检查点保留多 token 预测的加速。如果用 Hugging Face Transformers 或 Unsloth,可以直接微调这些权重。
整个方案的核心是:把大模型压到够小,但尽量少伤质量。1GB 内存门槛意味着一些中高端手机现在能本地跑 Gemma 4 了,而不用切到云端。