AI Pulse

Google开源Gemma 4,小模型突然能干大模型的活了

有人刚用笔记本跑完一个复杂逻辑链:从天气预报数据里提取异常波动,比对过去三年同期,再生成一份给物业的维修预警建议。他没连云服务,没调API,模型就在本地加载完毕,3秒内给出结构化输出。

这是Gemma 4在真实轻量设备上的表现。它只有约40亿参数,不到GPT-4 Turbo的十分之一,却在数学推理、多步工具调用、状态追踪等任务上达到此前需100亿+参数模型才能稳定完成的水平。 这意味着:以前必须上服务器集群的任务,现在一块带GPU的消费级笔记本就能扛住。

KerasHub已集成该模型,开发者只需三行代码即可加载,JAX后端优化后,单卡吞吐提升近2倍——不是靠堆显存,而是把每一步计算压缩得更紧。 这意味着:模型变小了,但工作流没缩水;部署门槛降了,可组合性反而升了。

Gemma系列一直走‘可验证、可审计、可嵌入’路线,这次开源连训练日志、量化方案、安全护栏都一并公开。它不追求榜单刷分,而是让模型真正嵌进业务毛细血管里。 这意味着:你不用再等‘AI就绪’的IT基建,AI现在就能长进你现有的Python脚本里。

别人还在争论‘小模型能不能替代大模型’,Gemma 4已经悄悄划出一条新分界线:不是大小之别,而是‘能否闭环执行’之别。

下次看到一个新模型标称‘高效’,不妨问问:它省下的算力,是换来了更快响应,还是换来了更多可调度的智能动作?

📎 阅读原文 · @fchollet on 𝕏