AI Pulse

Deepseek V4 Pro 是迄今最大的开源模型:1.6万亿参数,490亿激活,100万上下文

Deepseek V4 Pro 是迄今最大的开源模型,总参数量达1.6万亿,每次推理激活约490亿参数,训练数据量33万亿token,支持100万token上下文长度。 这意味着:它把原本只在闭源模型中出现的超长上下文、超大规模与实际可部署性,第一次同时塞进了开源许可证(MIT)里。

它引入两种新注意力机制:CSA(顺序压缩注意力)和HCA(高激进压缩注意力),都基于KV压缩+滑动窗口,但HCA的压缩更激进;还弃用传统密集层,改用哈希路由的MoE,并放宽了专家负载均衡的硬件节点限制。 这意味着:处理百万级上下文时,计算不再卡在O(L²)复杂度上,而是在保持局部感知的同时,把KV缓存压缩到仅为同类GQA模型的2%。

它首次在开源模型中实现FP4量化感知训练(QAT),连闪电索引器(lightning indexer)都用FP4;KV缓存用bf16存储;所有核心算子(包括MegaMoE内核)全部开源;训练阶段用ODP动态分配推理强度不同的专家,最终模型通过专家在线策略蒸馏(而非直接RLHF)获得。 这意味着:量化、缓存、并行、路由、训练稳定性——整条技术链不再依赖黑盒基建或商业授权,而是一份可复现、可修改、可部署的完整工程说明书。

这条路能不能走通,取决于工具本身够不够用。但至少,它把‘要不要试’这件事,变简单了。

📎 阅读原文 · @eliebakouch on 𝕏

📬 订阅 AI Pulse

每天两次更新,不错过重要信号

▲ 回到顶部