AI Pulse
📡 X 信号

DeepSeek没刷榜,却用MoE架构把AI硬件门槛砍掉一大截

为什么我认为DeepSeek是国内大模型的第一梯队?
大家可以好好地读一下这篇文章

梁文锋并没有追逐来自编码计划或多模态模型的快钱
相反,他们的激进架构创新(MoE,MLA,Engram,mHC等)大幅削减了KV缓存和计算需求
特别是MoE,极大地降低了AI硬件的推理要求,这些底层架构式的创新,才是DeepSeek真正的力量

而反观国内的大厂,他们不静下来研究,天天搞这个榜单刷榜的行为,这些大厂搞的模型,我觉得都没救了,评分很高,实际干活不行

平时拿 DeepSeek 写代码的人,可以看看 DeepSeek-Code-Whale。
GitHub: 开源终端 AI 编程 Agent,专为 DeepSeek 模型优化,支持 MCP 工具、Skills 扩展、代码任务执行、前缀缓存优化(90% 缓存命中率)、1M 上下文窗口、git worktree 隔离、read-only /ask 模式、/plan 规划模式。

适用场景:
• 想降低 AI 编程成本、需要高缓存命中率的长时间开发会话
• 习惯命令行工作流、希望把 DeepSeek 接进完整 coding workflow 的开发者
• 需要 MCP 工具集成、Skills 复用、git worktree 隔离的项目
• 希望 read-only 分析与实际执行分离、降低误操作风险的谨慎型用户

如果你想搭一套偏本地、偏命令行的开发助手,这个可以收进候选。

查看 X 原帖

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部