AI Pulse

270亿参数的稠密模型,干翻了15倍大的巨无霸

Qwen3.6-27B 是个270亿参数的稠密模型,没搞稀疏激活,也没上MoE那套花架子,就靠实打实的架构调优和训练数据硬刚。

它在所有主流编程基准上都压过了 Qwen3.5-397B-A17B——那个总参3970亿、每次激活170亿的巨无霸,体积差不多是它的15倍。SWE-bench Verified 77.2 对 76.2,SWE-bench Pro 53.5 对 50.9,Terminal-Bench 2.0 59.3 对 52.5,赢的不多,但确实赢了。

现在开发者能用更少显存跑出更强的代码能力,还不用折腾部署。这模型原生支持多模态,一套权重同时搞定“视觉-语言思考模式”和“非思考模式”,图像、视频、文本混着喂进去,它直接嚼,不用换模型也不用加适配层。

以前想同时扛住强编程推理和原生多模态,基本得堆更大参数或搞复杂结构。这次倒好,270亿参数的稠密模型直接把两样活儿都接了。

牛皮吹爆了?我原以为多模态和强代码能力必须二选一,结果人家端上来一盘两全的菜。

📎 阅读原文 · @Alibaba_Qwen on 𝕏