ds4.c：让你的Mac变成本地大模型引擎

📅 2026 年 5 月 8 日 📖 约 14 分钟 GitHub AI工程开源

一个叫ds4.c的开源项目，专为DeepSeek V4 Flash这个284B参数的大模型设计，只支持苹果的Metal GPU，不是通用的GGUF运行器。在128GB内存的MacBook上用2-bit量化版本就能跑起来。

这个模型在思考模式下，思考部分的长度通常只有其他模型的五分之一，而且简单问题不会长篇大论——长度和问题复杂度成正比。上下文窗口支持100万token，读一整本书没问题。参数多，在边缘知识上比27B甚至35B的模型强不少，比如问意大利电视节目或政治问题，知识储备的差距一下就出来了。

速度怎么样？M3 Max 128GB MacBook Pro上，2-bit量化版短提示预填58.52 token每秒，生成26.68 token每秒。长提示（11709 token）预填250.11 token每秒，生成21.47 token每秒。日常问答和代码生成够用。

对话历史可以存到硬盘。磁盘KV缓存通过SHA1哈希token ID做键，会话切换和服务重启后能恢复前缀，中断工作后无缝继续，AI代理长时间任务也不怕丢进度。

项目自带一个兼容OpenAI和Anthropic API的本地服务器，支持流式输出、工具调用和思考模式。可以直接替换云端API，用在opencode、Pi、Claude Code这些编码代理上。数据不出本机，免费。

但限制也很明显。目前只支持Metal，未来可能加CUDA，但不会再扩了。CPU路径只是用来检查正确性的，而且当前macOS还有个虚拟内存bug，跑CPU代码可能导致内核崩溃。2-bit量化对路由MoE专家做了非对称量化（up/gate用IQ2_XXS，down用Q2_K），其他组件保持原样来保证质量，但量化后在复杂任务（比如数学推理、长文档摘要）上的质量损失到底多大，目前没有明确数据。

项目用GPT 5.5辅助开发，开发者在README里直接说了：不喜欢AI开发的代码就别用。它基于llama.cpp和GGML的设计思路，但没有直接链接GGML。还提供了一套测试向量，可以用来跟官方DeepSeek V4 Flash API做logprob对比验证。

服务器目前不支持多请求批处理。对于手头有128GB内存Mac的用户来说，这就是一个无需联网、无需付费的本地AI选项——但别指望它能替代生产环境。

📎 阅读原文 · GitHub

📬 订阅 AI Pulse