AI Pulse

Gemma 4 12B:让笔记本电脑也能跑多模态AI

Gemma 4 12B:让笔记本电脑也能跑多模态AI

你可以在自己的笔记本上本地跑一个能同时看懂文字、图片和音频的 AI 模型,不需要联网,也不需要高端显卡。Google DeepMind 今天发布的 Gemma 4 12B 就是干这个的。它只需要 16GB 的 VRAM 或统一内存(比如苹果 M 系列芯片的 Mac),就能流畅处理多模态任务。Gemma 4 系列累计下载量已经超过 1.5 亿次——大家确实需要本地 AI。

和常规多模态模型不一样,Gemma 4 12B 干脆去掉了视觉和音频编码器。视觉输入先经过一个轻量级的嵌入模块——就是一次矩阵乘法加位置嵌入和归一化——然后直接送进语言模型主干。音频更彻底:原始波形信号直接映射到文本令牌的同一维度空间。这种无编码器架构降低了计算开销,也让模型首次在中规模尺寸下原生支持音频输入。

性能方面,虽然只有 12B 参数,但基准测试成绩跟它家 26B 的混合专家模型差不多,内存占用却不到一半。它还内置了多令牌预测草稿器,一次预测多个令牌,降低了生成延迟。换句话说,普通硬件上就能跑出接近大模型的推理速度,不用为昂贵 GPU 买单。

现在就可以亲自体验了。模型权重已经在 Hugging Face 和 Kaggle 开放下载,支持 Transformers、llama.cpp、MLX、SGLang、vLLM 等主流框架。

阅读原文
📚 相关主题 开源工程

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部