Deepseek V4 Pro 是迄今最大的开源模型：1.6万亿参数，490亿激活，100万上下文

📅 2026 年 4 月 24 日 📖 约 8 分钟 @eliebakouch on 𝕏 AI开源工程

Deepseek V4 Pro 是迄今最大的开源模型，总参数量达1.6万亿，每次推理激活约490亿参数，训练数据量33万亿token，支持100万token上下文长度。这意味着：它把原本只在闭源模型中出现的超长上下文、超大规模与实际可部署性，第一次同时塞进了开源许可证（MIT）里。

它引入两种新注意力机制：CSA（顺序压缩注意力）和HCA（高激进压缩注意力），都基于KV压缩+滑动窗口，但HCA的压缩更激进；还弃用传统密集层，改用哈希路由的MoE，并放宽了专家负载均衡的硬件节点限制。这意味着：处理百万级上下文时，计算不再卡在O(L²)复杂度上，而是在保持局部感知的同时，把KV缓存压缩到仅为同类GQA模型的2%。

它首次在开源模型中实现FP4量化感知训练（QAT），连闪电索引器（lightning indexer）都用FP4；KV缓存用bf16存储；所有核心算子（包括MegaMoE内核）全部开源；训练阶段用ODP动态分配推理强度不同的专家，最终模型通过专家在线策略蒸馏（而非直接RLHF）获得。这意味着：量化、缓存、并行、路由、训练稳定性——整条技术链不再依赖黑盒基建或商业授权，而是一份可复现、可修改、可部署的完整工程说明书。

这条路能不能走通，取决于工具本身够不够用。但至少，它把‘要不要试’这件事，变简单了。

📎 阅读原文 · @eliebakouch on 𝕏

📬 订阅 AI Pulse