DwarfStar中的LLM分布式推理：本地运行前沿模型的硬件选择与并行方法

📅 2026 年 5 月 26 日 📖 约 4 分钟 antirez.com AI工程开源

antirez 9小时前 4636次查看

高端NVIDIA显卡及运行它们所需的服务器和电力成本高昂，特别是如果你计划获得足够的显存来运行大型模型。迄今为止的替代方案是Apple硬件，或DGX Spark——即便因内存带宽严重受限，它仍能快速处理LLM的提示处理（预填充）。Mac Studio提供最高512GB统一内存，内存带宽适中（但远优于Spark），算力在当下环境下价格相对合理。

例如，使用DwarfStar，Mac Studio M3 Ultra 512GB运行DeepSeek v4 PRO时，预填充速度约150 t/s，解码速度约10-13 t/s，不算出色，但对于某些用例来说已经可用。即使是2位量化，DeepSeek v4 PRO表现也很不错，就像同量化的Flash一样（今天我还让PRO写了一个C编译器，视频很快会发布）。我认为能在家里运行一个前沿模型，总花费约1.2万美元，这并非微不足道的小事。

可以预期情况会越来越好，但前景似乎阴云密布。几乎无望NVIDIA设备会变得更便宜，即使是小公司也难以轻松购买和管理用于本地推理的小型数据中心。与此同时，内存短缺使得我们不太可能看到搭载M5 Ultra的Mac Studio——或许有1.2T/s内存带宽和更强算力（M5 Max在算力上已经更快，其每个GPU核心内都集成了神经加速器，有助于某些模型）。

因此，当前本地推理的最佳设备可能是一台笔记本。M5 Max 128GB可以运行DeepSeek v4 Flash和Mimo V2.5（2位量化），预填充和解码速度相当不错：预填充约500 t/s，解码约35-40 t/s，且随着上下文增大性能下降幅度可接受。根据配置不同，价格在6-7千美元，这目前是最划算的选择之一。

如果情况如此，对于本地推理项目（尤其DwarfStar）而言，研究分布式推理开始变得有趣。如果我们有两台、三台、四台MacBook M5 Max系统呢？或者两台512GB内存的M3 Ultra？

传统上主要有两种分布式推理系统。一种是通过将50%的Transformer层加载到计算机A，剩下50%加载到计算机B，以顺序方式运行推理，从而复制内存。这种情况下只需传输激活值，概念非常简单；借助一些微批次技巧，不仅可以复制内存，甚至理论上能显著提高提示处理速度（但解码不行：生成单个token时，必须先等待机器A处理前几层，再等机器B处理后几层，以此类推——不过至少产生的热量更少，因此可以维持持续负载），这并不差。例如，拥有两台Mac Studio 512MB的幸运儿可以运行完整尺寸的DeepSeek v4 PRO（即使2位量化也运行得很好），并通过微批次获得更快的预填充。

另一种方法是利用Apple RDMA在两台机器间并行执行，基本上是纵向分割。例如，可以尝试在两台机器上加载相同的2位量化，这样两者都能容纳，且每台机器拥有所有路由专家。然后对于每一层，尝试进行协调，在机器A上执行一半专家，机器B上执行另一半专家（注意两台机器都拥有所有专家，因此无论路由器如何选择，都可以将50%的计算发送给另一台机器，且激活值很小）。这种方法对于PRO更有可行性，因为它的路由专家规模大得多，通信开销更不敏感。但能否良好运行，还有待观察。

你可能在想还有张量并行，对吧？但我打赌，考虑到两台Apple计算机、两台DGX Spark等之间的通信速度（可以去查一下NVLink的速度），张量并行根本不可行。上述两种模型的妙处在于只需传输极少的数据。

好了，到目前为止，你可能在想：这些关于并行运行LLM的老生常谈人人都知道，确实如此。但这篇帖子正是为了引出这个关键点。如果我们能用一种完全不同的方式并行化两台Mac或DGX呢？开放权重模型如今正值黄金时代，我们有很多选择，许多都非常强大。在128GB 2位量化类别中，有不少有趣的模型：Minimax M2.7、Mimo V2.5、DeepSeek v4 Flash，以及其他几个。同时，最近有研究注意到LLM集成（https://arxiv.org/abs/2502.18036）是一个尚未充分探索的可能性：它允许两台机器上以完全无共享的方式运行两个模型，仅在最后合并logits或选择最佳续写。有不同方法可以实现，即使两个模型的词汇表不同也能工作：可以选择困惑度较低的续写（即选择更确信的模型——这就像一个隐式路由的双专家MoE），甚至可以合并logits（由于词汇表不同会有些复杂性）并从中采样。更近期的小论文表明，混合这两种方法效果最佳。总之：这些技术似乎真的有效，模型的表现似乎比单独运行时更好。就好像每个模型都带来了自己对下一步应该说什么的观点，从而提升了知识水平。

也许这是除了前两种方法之外最值得尝试的第三种方法。我真心希望未来几个月能找到时间进一步探索这一切。

（博客评论由Disqus提供）

阅读原文

📚 相关主题工程开源

📬 订阅 AI Pulse