AI Pulse

DwarfStar中的LLM分布式推理:本地运行前沿模型的硬件选择与并行方法

antirez 9小时前 4636次查看

高端NVIDIA显卡及运行它们所需的服务器和电力成本高昂,特别是如果你计划获得足够的显存来运行大型模型。迄今为止的替代方案是Apple硬件,或DGX Spark——即便因内存带宽严重受限,它仍能快速处理LLM的提示处理(预填充)。Mac Studio提供最高512GB统一内存,内存带宽适中(但远优于Spark),算力在当下环境下价格相对合理。

例如,使用DwarfStar,Mac Studio M3 Ultra 512GB运行DeepSeek v4 PRO时,预填充速度约150 t/s,解码速度约10-13 t/s,不算出色,但对于某些用例来说已经可用。即使是2位量化,DeepSeek v4 PRO表现也很不错,就像同量化的Flash一样(今天我还让PRO写了一个C编译器,视频很快会发布)。我认为能在家里运行一个前沿模型,总花费约1.2万美元,这并非微不足道的小事。

可以预期情况会越来越好,但前景似乎阴云密布。几乎无望NVIDIA设备会变得更便宜,即使是小公司也难以轻松购买和管理用于本地推理的小型数据中心。与此同时,内存短缺使得我们不太可能看到搭载M5 Ultra的Mac Studio——或许有1.2T/s内存带宽和更强算力(M5 Max在算力上已经更快,其每个GPU核心内都集成了神经加速器,有助于某些模型)。

因此,当前本地推理的最佳设备可能是一台笔记本。M5 Max 128GB可以运行DeepSeek v4 Flash和Mimo V2.5(2位量化),预填充和解码速度相当不错:预填充约500 t/s,解码约35-40 t/s,且随着上下文增大性能下降幅度可接受。根据配置不同,价格在6-7千美元,这目前是最划算的选择之一。

如果情况如此,对于本地推理项目(尤其DwarfStar)而言,研究分布式推理开始变得有趣。如果我们有两台、三台、四台MacBook M5 Max系统呢?或者两台512GB内存的M3 Ultra?

传统上主要有两种分布式推理系统。一种是通过将50%的Transformer层加载到计算机A,剩下50%加载到计算机B,以顺序方式运行推理,从而复制内存。这种情况下只需传输激活值,概念非常简单;借助一些微批次技巧,不仅可以复制内存,甚至理论上能显著提高提示处理速度(但解码不行:生成单个token时,必须先等待机器A处理前几层,再等机器B处理后几层,以此类推——不过至少产生的热量更少,因此可以维持持续负载),这并不差。例如,拥有两台Mac Studio 512MB的幸运儿可以运行完整尺寸的DeepSeek v4 PRO(即使2位量化也运行得很好),并通过微批次获得更快的预填充。

另一种方法是利用Apple RDMA在两台机器间并行执行,基本上是纵向分割。例如,可以尝试在两台机器上加载相同的2位量化,这样两者都能容纳,且每台机器拥有所有路由专家。然后对于每一层,尝试进行协调,在机器A上执行一半专家,机器B上执行另一半专家(注意两台机器都拥有所有专家,因此无论路由器如何选择,都可以将50%的计算发送给另一台机器,且激活值很小)。这种方法对于PRO更有可行性,因为它的路由专家规模大得多,通信开销更不敏感。但能否良好运行,还有待观察。

你可能在想还有张量并行,对吧?但我打赌,考虑到两台Apple计算机、两台DGX Spark等之间的通信速度(可以去查一下NVLink的速度),张量并行根本不可行。上述两种模型的妙处在于只需传输极少的数据。

好了,到目前为止,你可能在想:这些关于并行运行LLM的老生常谈人人都知道,确实如此。但这篇帖子正是为了引出这个关键点。如果我们能用一种完全不同的方式并行化两台Mac或DGX呢?开放权重模型如今正值黄金时代,我们有很多选择,许多都非常强大。在128GB 2位量化类别中,有不少有趣的模型:Minimax M2.7、Mimo V2.5、DeepSeek v4 Flash,以及其他几个。同时,最近有研究注意到LLM集成(https://arxiv.org/abs/2502.18036)是一个尚未充分探索的可能性:它允许两台机器上以完全无共享的方式运行两个模型,仅在最后合并logits或选择最佳续写。有不同方法可以实现,即使两个模型的词汇表不同也能工作:可以选择困惑度较低的续写(即选择更确信的模型——这就像一个隐式路由的双专家MoE),甚至可以合并logits(由于词汇表不同会有些复杂性)并从中采样。更近期的小论文表明,混合这两种方法效果最佳。总之:这些技术似乎真的有效,模型的表现似乎比单独运行时更好。就好像每个模型都带来了自己对下一步应该说什么的观点,从而提升了知识水平。

也许这是除了前两种方法之外最值得尝试的第三种方法。我真心希望未来几个月能找到时间进一步探索这一切。

(博客评论由Disqus提供)

阅读原文
📚 相关主题 工程开源

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部