📡 X 信号

DeepSeek没刷榜，却用MoE架构把AI硬件门槛砍掉一大截

@manateelazycat 2.7万浏览 · 137 喜欢 · 8 转推 · 66 收藏 AI架构开源

为什么我认为DeepSeek是国内大模型的第一梯队？
大家可以好好地读一下这篇文章

梁文锋并没有追逐来自编码计划或多模态模型的快钱
相反，他们的激进架构创新(MoE,MLA,Engram,mHC等)大幅削减了KV缓存和计算需求
特别是MoE，极大地降低了AI硬件的推理要求，这些底层架构式的创新，才是DeepSeek真正的力量

而反观国内的大厂，他们不静下来研究，天天搞这个榜单刷榜的行为，这些大厂搞的模型，我觉得都没救了，评分很高，实际干活不行

平时拿 DeepSeek 写代码的人，可以看看 DeepSeek-Code-Whale。
GitHub：开源终端 AI 编程 Agent，专为 DeepSeek 模型优化，支持 MCP 工具、Skills 扩展、代码任务执行、前缀缓存优化（90% 缓存命中率）、1M 上下文窗口、git worktree 隔离、read-only /ask 模式、/plan 规划模式。

适用场景：
• 想降低 AI 编程成本、需要高缓存命中率的长时间开发会话
• 习惯命令行工作流、希望把 DeepSeek 接进完整 coding workflow 的开发者
• 需要 MCP 工具集成、Skills 复用、git worktree 隔离的项目
• 希望 read-only 分析与实际执行分离、降低误操作风险的谨慎型用户

如果你想搭一套偏本地、偏命令行的开发助手，这个可以收进候选。

查看 X 原帖

📬 订阅 AI Pulse