DeepSeek V4 特点

Question

DeepSeek V4 特点

Accepted Answer

DeepSeek V4 是 DeepSeek 公司于 2026 年 4 月发布的开源大模型系列，包含 V4 Pro 和 V4 Flash 两个主要版本，其中 V4 Pro 以 1.6 万亿参数和百万 token 上下文窗口成为当时开源权重最大的模型，V4 Flash 则采用混合专家架构且速度更快 [18][1][7]。该系列在成本、本地部署、编程能力和国产化支持上均有显著特点，以下从不同侧面展开。

百万 token 上下文窗口是 DeepSeek V4 最突出的架构特性，原生训练支撑整本法律合同或长篇小说一次性喂入，无需切片拼接 [18]。这项能力依赖多项服务端优化：通过 token 轴压缩将 KV 缓存占用降至可行水平，并设计三种缓存布局（CSA 压缩、HCA 重度压缩和 SWA 滑动窗口）来平衡性能与显存，在 HGX B200 上缓存容量从 120 万 token 提升至 370 万 token [8]。该特性也被列入当周十大 AI 论文之一，强调其长上下文效率优化的同时成本仅为 GPT-5.2 的一小部分 [20]。

成本优势是 DeepSeek V4 吸引开发者的核心卖点。V4 Pro 的输出价格每百万 token 0.87 美元，仅为 Claude Opus 的 1/17，加上自动上下文缓存后成本可降至 0.004 美元，降幅达 120 倍 [12]。轻度使用 deepclaude 方案每月约 20 美元，相比 Anthropic Max 方案节省 90% [12]。V4 Flash 在简单任务中响应甚至快于 GPT-5.5，且完全开源，已在许多小团队 API 服务中替换掉更贵的闭源模型 [16]。因价格低廉，有人尝试用 FreeBuff 等工具白嫖调用，但实际需要自建中转层处理鉴权和限流，运维成本转嫁成了时间成本 [9]。

编程能力方面，DeepSeek V4 Pro 在 FrontierSWE 编程测试中是当时表现最好的开源模型，且“奖励黑客行为”明显少于其他模型，更愿意按题意解题而非钻规则空子 [11]。与 GPT-5.5 对比时，有人评价 GPT 工程优秀但核心偷懒，DeepSeek 工程粗糙但 Agent 真能跑，暗示其在代理任务中的实用潜力 [13]。V4 可以与 Claude Code、GitHub Copilot、OpenCode、Hermes 等十余种主流编程助手集成，官方提供了接入指南 [15]。实际案例中，Claude Code 对接 DeepSeek V4 Pro 后成本降至 1/17，日常编码几乎无感，仅在复杂推理时才需切回原版 [12]。但需注意 V4 Pro 不支持图片输入，Claude Code 对接时会遇到限制 [2]。

开源与本地部署能力使 DeepSeek V4 成为少数能在普通硬件上运行的超大规模模型。284B 参数的 V4 Flash 通过 ds4.c 项目可在 128GB 内存的 M3 Max MacBook Pro 上本地运行，2-bit 量化版短提示生成速度达 26.68 token/秒，且支持磁盘 KV 缓存和 OpenAI/Anthropic API 兼容服务器 [10]。这种设计让开发者无需联网和付费，就能在本地获得接近前沿模型的能力。此外，V4 的开源权重是全球最大，意味着其他团队可基于其权重进行微调和二次开发 [18]。

国产化生态是另一重要特点。昇腾 910C 国产 AI 算力集群已完成 DeepSeek-V4-Pro 全参数后训练，这是国产芯片首次支撑同级别大模型的完整训练流程 [1]。在 LMArena 文本榜上，文心 5.1 Preview 得分 1476 超过了 DeepSeek-V4-Pro，同期两者先后发布，显示国产旗舰模型正密集交锋 [17]。V4 还结合本地模型与激活控制技术推出了 DeepSeek-V4-Flash 的控制版本，通过操纵模型激活值引导输出，但该功能对普通用户不可用，因需访问模型权重 [6]。

实际应用场景中，DeepSeek V4 展示出多样化的能力。用户仅用“结合倚天屠龙记生成 Web 对话式回合制闯关游戏”一句提示即可直接跑出可玩原型，美术部分由 GPT-Image-2 补全 [19]。OpenCode 与 V4 Flash 组合可实现一句话让 AI 写文件、搭页面、改内容，无需手动复制粘贴，AI 代理直接输出文件 [7]。在中文写作领域，Claude Code 负责构建框架、DeepSeek V4 润色，再配合腾讯朱雀等 AI 检测工具迭代优化，被视为顶配组合 [4]。这些案例表明 V4 在处理清晰重复的商业任务时足够高效，但仍需人工检查输出质量 [7]。

📬 订阅 AI Pulse