Gemma 4 12B：让笔记本电脑也能跑多模态AI

📅 2026 年 6 月 4 日 📖 约 4 分钟 Google AI开源工程

你可以在自己的笔记本上本地跑一个能同时看懂文字、图片和音频的 AI 模型，不需要联网，也不需要高端显卡。Google DeepMind 今天发布的 Gemma 4 12B 就是干这个的。它只需要 16GB 的 VRAM 或统一内存（比如苹果 M 系列芯片的 Mac），就能流畅处理多模态任务。Gemma 4 系列累计下载量已经超过 1.5 亿次——大家确实需要本地 AI。

和常规多模态模型不一样，Gemma 4 12B 干脆去掉了视觉和音频编码器。视觉输入先经过一个轻量级的嵌入模块——就是一次矩阵乘法加位置嵌入和归一化——然后直接送进语言模型主干。音频更彻底：原始波形信号直接映射到文本令牌的同一维度空间。这种无编码器架构降低了计算开销，也让模型首次在中规模尺寸下原生支持音频输入。

性能方面，虽然只有 12B 参数，但基准测试成绩跟它家 26B 的混合专家模型差不多，内存占用却不到一半。它还内置了多令牌预测草稿器，一次预测多个令牌，降低了生成延迟。换句话说，普通硬件上就能跑出接近大模型的推理速度，不用为昂贵 GPU 买单。

现在就可以亲自体验了。模型权重已经在 Hugging Face 和 Kaggle 开放下载，支持 Transformers、llama.cpp、MLX、SGLang、vLLM 等主流框架。

阅读原文

📚 相关主题开源工程

📬 订阅 AI Pulse