AI Pulse

OpenAI等开源新协议,减少GPU闲置加速AI训练

训练大型AI模型需要几千张GPU同时干活,但网络通信经常是短板——GPU在等数据的时候闲着,既浪费算力又浪费电。OpenAI联手AMD、Broadcom、Intel、Microsoft、NVIDIA,搞了个新协议叫MRC(Multipath Reliable Connection),专门治这个毛病。

MRC能让AI训练集群跑得更快更稳,减少GPU在那空转的时间。它已经在OpenAI所有最大的超级计算机上跑了,包括Oracle云在德州阿比林的站点和微软的Fairwater超算,这些机器都在训练最前沿的模型。不是纸上谈兵,是真经受过生产环境考验的。

现在MRC已经放出源码,其他公司和个人也能拿去用。如果更多厂商跟进,整个行业训练AI的效率都可能沾光。不过OpenAI没公开MRC具体怎么靠多路径绕开网络拥堵的细节,AWS和Google Cloud这些云服务商会不会跟,目前也没消息。

对普通用户来说,训练效率提高不会让ChatGPT回复变快,但训练快了意味着模型迭代加速、成本下降——长期看,AI服务可能更便宜或者更稳。MRC给行业递了个减少算力浪费的工具,但能不能铺开,还得看各家愿不愿意用它。

📎 阅读原文 · @OpenAI on 𝕏

📬 订阅 AI Pulse

每天两次更新,不错过重要信号

▲ 回到顶部