谷歌推新量化格式，Gemma 4手机端内存不到1GB

📅 2026 年 6 月 6 日 📖 约 4 分钟 Google AI工程开源

Gemma 4 发布两个月后，谷歌拿出了新东西：用量化感知训练（QAT）优化过的检查点。QAT 的思路是在训练阶段就模拟量化过程，提前算出最优缩放设置，这样模型被压缩时质量损失更小——相比标准的后训练量化（PTQ），QAT 能拿到更高的整体质量。

这次发布包含两种量化格式。一种是 Q4_0，已经比较常见；另一种是专为移动端设计的新格式。用了后者之后，Gemma 4 E2B 的内存占用降到 1GB。如果只需要文本能力，还可以进一步拆掉音频和视觉编码器——纯文本的 E2B 模型（不含逐层嵌入）内存不到 1GB。

移动专用格式做了几件事。静态激活——训练时预计算缩放设置，减少手机芯片的运算负担，响应更快。通道级量化——手机直接跑原生计算，不用绕路。目标 2 位量化——生成 token 的部分压到 2 位，核心推理层保持高精度。嵌入和 KV 缓存优化——减少活动内存占用，支持长时间对话不会撑爆内存。

这些检查点已经放到了 Hugging Face 上，有 GGUF 格式（搭配 llama.cpp）、压缩张量（用于 vLLM），也有未量化版本。桌面端可以通过 llama.cpp、Ollama 或 LM Studio 本地跑起来；移动端用 LiteRT-LM 运行时或者浏览器里的 Transformers.js 部署。开发工具方面支持 SGLang、vLLM、MLX，还有 MTP QAT 检查点保留多 token 预测的加速。如果用 Hugging Face Transformers 或 Unsloth，可以直接微调这些权重。

整个方案的核心是：把大模型压到够小，但尽量少伤质量。1GB 内存门槛意味着一些中高端手机现在能本地跑 Gemma 4 了，而不用切到云端。

阅读原文

📚 相关主题工程开源

📬 订阅 AI Pulse