AI Pulse

国产芯片没H100,就靠4比特格式榨出更强算力

国产芯片没H100,就靠4比特格式榨出更强算力

国内拿不到H100,华为干脆自己搞了个HiFloat4——专为昇腾NPU定制的4比特浮点格式。训练大模型时精度损失约1.0%,比西方主推的MXFP4还低0.5个百分点。

HiFloat4只靠随机舍入(RHT)就能逼近BF16效果;MXFP4却得叠上RHT、随机舍入和无截断缩放三件套,才勉强压到1.5%误差。牛皮吹爆了。

这也不是从零开始,而是HiFloat8的进一步压缩。在OpenPangu-1B、Llama3-8B和Qwen3-MoE-30B上,HiFloat4全胜MXFP4,模型越大优势越明显。说白了,就是整条技术链在往“每瓦特算力最大化”上拧——硬件卡脖子,就靠软件把国产芯片榨出最后一滴性能。

另一边,Anthropic让Claude Opus 4.6当起了自主对齐研究员(AAR)。它现在能自己提假设、做实验、分析结果、再迭代,闭环跑通开放研究问题。以前验证一个对齐想法要一周,现在一天搞定,成本也从人力账单变成可算清楚的GPU小时数。

人类研究员花7天,在Qwen系列上追回23%的性能差距(PGR=0.23)。AAR团队5天(累计800小时)干到97%(PGR=0.97),花了大概1.8万美元。更狠的是,它找到的方法还能迁移到新任务:数学题PGR 0.94,编程题0.47——后者还是人类基线的两倍。

两条路看起来各干各的,其实撞在同一个点上:一边是硬件受限下的能效优先,一边是研究流程的自动化重构。创新不再拼谁有更多H100或更多博士,而是看谁能用软硬协同+可复现的AI循环,把有限资源榨出最大响动。

完蛋,我刚意识到——我们可能正在进入一个“算力不够,算法来凑”的新常态。

📎 阅读原文 · Import AI