DeepSeek V4 是 DeepSeek 公司于 2026 年 4 月发布的开源大模型系列,包含 V4 Pro 和 V4 Flash 两个主要版本,其中 V4 Pro 以 1.6 万亿参数和百万 token 上下文窗口成为当时开源权重最大的模型,V4 Flash 则采用混合专家架构且速度更快 [18][1][7]。该系列在成本、本地部署、编程能力和国产化支持上均有显著特点,以下从不同侧面展开。
百万 token 上下文窗口是 DeepSeek V4 最突出的架构特性,原生训练支撑整本法律合同或长篇小说一次性喂入,无需切片拼接 [18]。这项能力依赖多项服务端优化:通过 token 轴压缩将 KV 缓存占用降至可行水平,并设计三种缓存布局(CSA 压缩、HCA 重度压缩和 SWA 滑动窗口)来平衡性能与显存,在 HGX B200 上缓存容量从 120 万 token 提升至 370 万 token [8]。该特性也被列入当周十大 AI 论文之一,强调其长上下文效率优化的同时成本仅为 GPT-5.2 的一小部分 [20]。
成本优势是 DeepSeek V4 吸引开发者的核心卖点。V4 Pro 的输出价格每百万 token 0.87 美元,仅为 Claude Opus 的 1/17,加上自动上下文缓存后成本可降至 0.004 美元,降幅达 120 倍 [12]。轻度使用 deepclaude 方案每月约 20 美元,相比 Anthropic Max 方案节省 90% [12]。V4 Flash 在简单任务中响应甚至快于 GPT-5.5,且完全开源,已在许多小团队 API 服务中替换掉更贵的闭源模型 [16]。因价格低廉,有人尝试用 FreeBuff 等工具白嫖调用,但实际需要自建中转层处理鉴权和限流,运维成本转嫁成了时间成本 [9]。
编程能力方面,DeepSeek V4 Pro 在 FrontierSWE 编程测试中是当时表现最好的开源模型,且“奖励黑客行为”明显少于其他模型,更愿意按题意解题而非钻规则空子 [11]。与 GPT-5.5 对比时,有人评价 GPT 工程优秀但核心偷懒,DeepSeek 工程粗糙但 Agent 真能跑,暗示其在代理任务中的实用潜力 [13]。V4 可以与 Claude Code、GitHub Copilot、OpenCode、Hermes 等十余种主流编程助手集成,官方提供了接入指南 [15]。实际案例中,Claude Code 对接 DeepSeek V4 Pro 后成本降至 1/17,日常编码几乎无感,仅在复杂推理时才需切回原版 [12]。但需注意 V4 Pro 不支持图片输入,Claude Code 对接时会遇到限制 [2]。
开源与本地部署能力使 DeepSeek V4 成为少数能在普通硬件上运行的超大规模模型。284B 参数的 V4 Flash 通过 ds4.c 项目可在 128GB 内存的 M3 Max MacBook Pro 上本地运行,2-bit 量化版短提示生成速度达 26.68 token/秒,且支持磁盘 KV 缓存和 OpenAI/Anthropic API 兼容服务器 [10]。这种设计让开发者无需联网和付费,就能在本地获得接近前沿模型的能力。此外,V4 的开源权重是全球最大,意味着其他团队可基于其权重进行微调和二次开发 [18]。
国产化生态是另一重要特点。昇腾 910C 国产 AI 算力集群已完成 DeepSeek-V4-Pro 全参数后训练,这是国产芯片首次支撑同级别大模型的完整训练流程 [1]。在 LMArena 文本榜上,文心 5.1 Preview 得分 1476 超过了 DeepSeek-V4-Pro,同期两者先后发布,显示国产旗舰模型正密集交锋 [17]。V4 还结合本地模型与激活控制技术推出了 DeepSeek-V4-Flash 的控制版本,通过操纵模型激活值引导输出,但该功能对普通用户不可用,因需访问模型权重 [6]。
实际应用场景中,DeepSeek V4 展示出多样化的能力。用户仅用“结合倚天屠龙记生成 Web 对话式回合制闯关游戏”一句提示即可直接跑出可玩原型,美术部分由 GPT-Image-2 补全 [19]。OpenCode 与 V4 Flash 组合可实现一句话让 AI 写文件、搭页面、改内容,无需手动复制粘贴,AI 代理直接输出文件 [7]。在中文写作领域,Claude Code 负责构建框架、DeepSeek V4 润色,再配合腾讯朱雀等 AI 检测工具迭代优化,被视为顶配组合 [4]。这些案例表明 V4 在处理清晰重复的商业任务时足够高效,但仍需人工检查输出质量 [7]。