350亿参数只开30亿,这开源模型干翻了自家前代
通义千问刚开源的 Qwen3.6-35B-A3B,总参数350亿,但每次推理只激活30亿左右——像极了我常去那家川菜馆,菜单印了两百道,后厨其实就三个师傅轮着炒。
它用 Apache 2.0 许可证,免费商用不用找阿里点头。法律门槛一降,小团队也能端上这盘大模型硬菜。
编程测试里,它干翻了参数更密的 Qwen3.5-27B,连自家前代都甩开一截。尤其在“代理式编码”这种要自己拆任务、调工具、反复试错的活儿上,表现得不像只有30亿激活参数。
过去这类能力总得靠堆活跃参数撑场面,现在它证明:清晰的任务定义和反馈闭环,可能比算力更稀缺。
作为原生多模态模型,看图说话、图文推理、从截图生成可运行代码这些事,它干得比尺寸预期好太多。千亿参数不再是入场券。
不过具体跑哪些基准、MoE里到底塞了多少专家、路由怎么设计,文档里没写清楚。阿里会不会推微调版或工具集成变体,也还没影儿。
完蛋,我又开始幻想拿它接个自动修bug插件了。