国产芯片没H100，就靠4比特格式榨出更强算力

📅 2026 年 4 月 21 日 📖 约 14 分钟 Import AI AI开源工程

国内拿不到H100，华为干脆自己搞了个HiFloat4——专为昇腾NPU定制的4比特浮点格式。训练大模型时精度损失约1.0%，比西方主推的MXFP4还低0.5个百分点。

HiFloat4只靠随机舍入（RHT）就能逼近BF16效果；MXFP4却得叠上RHT、随机舍入和无截断缩放三件套，才勉强压到1.5%误差。牛皮吹爆了。

这也不是从零开始，而是HiFloat8的进一步压缩。在OpenPangu-1B、Llama3-8B和Qwen3-MoE-30B上，HiFloat4全胜MXFP4，模型越大优势越明显。说白了，就是整条技术链在往“每瓦特算力最大化”上拧——硬件卡脖子，就靠软件把国产芯片榨出最后一滴性能。

另一边，Anthropic让Claude Opus 4.6当起了自主对齐研究员（AAR）。它现在能自己提假设、做实验、分析结果、再迭代，闭环跑通开放研究问题。以前验证一个对齐想法要一周，现在一天搞定，成本也从人力账单变成可算清楚的GPU小时数。

人类研究员花7天，在Qwen系列上追回23%的性能差距（PGR=0.23）。AAR团队5天（累计800小时）干到97%（PGR=0.97），花了大概1.8万美元。更狠的是，它找到的方法还能迁移到新任务：数学题PGR 0.94，编程题0.47——后者还是人类基线的两倍。

两条路看起来各干各的，其实撞在同一个点上：一边是硬件受限下的能效优先，一边是研究流程的自动化重构。创新不再拼谁有更多H100或更多博士，而是看谁能用软硬协同+可复现的AI循环，把有限资源榨出最大响动。

完蛋，我刚意识到——我们可能正在进入一个“算力不够，算法来凑”的新常态。