ds4.c:让你的Mac变成本地大模型引擎
一个叫ds4.c的开源项目,专为DeepSeek V4 Flash这个284B参数的大模型设计,只支持苹果的Metal GPU,不是通用的GGUF运行器。在128GB内存的MacBook上用2-bit量化版本就能跑起来。
这个模型在思考模式下,思考部分的长度通常只有其他模型的五分之一,而且简单问题不会长篇大论——长度和问题复杂度成正比。上下文窗口支持100万token,读一整本书没问题。参数多,在边缘知识上比27B甚至35B的模型强不少,比如问意大利电视节目或政治问题,知识储备的差距一下就出来了。
速度怎么样?M3 Max 128GB MacBook Pro上,2-bit量化版短提示预填58.52 token每秒,生成26.68 token每秒。长提示(11709 token)预填250.11 token每秒,生成21.47 token每秒。日常问答和代码生成够用。
对话历史可以存到硬盘。磁盘KV缓存通过SHA1哈希token ID做键,会话切换和服务重启后能恢复前缀,中断工作后无缝继续,AI代理长时间任务也不怕丢进度。
项目自带一个兼容OpenAI和Anthropic API的本地服务器,支持流式输出、工具调用和思考模式。可以直接替换云端API,用在opencode、Pi、Claude Code这些编码代理上。数据不出本机,免费。
但限制也很明显。目前只支持Metal,未来可能加CUDA,但不会再扩了。CPU路径只是用来检查正确性的,而且当前macOS还有个虚拟内存bug,跑CPU代码可能导致内核崩溃。2-bit量化对路由MoE专家做了非对称量化(up/gate用IQ2_XXS,down用Q2_K),其他组件保持原样来保证质量,但量化后在复杂任务(比如数学推理、长文档摘要)上的质量损失到底多大,目前没有明确数据。
项目用GPT 5.5辅助开发,开发者在README里直接说了:不喜欢AI开发的代码就别用。它基于llama.cpp和GGML的设计思路,但没有直接链接GGML。还提供了一套测试向量,可以用来跟官方DeepSeek V4 Flash API做logprob对比验证。
服务器目前不支持多请求批处理。对于手头有128GB内存Mac的用户来说,这就是一个无需联网、无需付费的本地AI选项——但别指望它能替代生产环境。