📡 X 信号

有人怼了闭源 labs 指责开源偷代码的说法

@bookwormengr 144 浏览 · 1 喜欢 AI开源观点

宝贝醒醒，新的借口来了：「开源实验室之所以亮眼，全是因为他们偷了我们内部 GitHub 代码和文档，还偷看了 Slack」🤦‍♂️。

而真正的原因是——虽然难以置信——AI 其实是一门相对容易掌握的关键技术 ☺️。

抱歉了 AI 实验室兄弟们，如果你们的自尊建立在「AI 神秘又难搞」的基础上 💔。不过话说回来，你当然可以继续跟约会对象吹牛逼 👍。其他人，听我说：

把它拿来和制造半导体芯片（或是其中某个环节，比如 CoWoS 封装）、造商用飞机比，哪怕只是做飞机发动机的单晶叶片比！AI 更容易掌握，原因在于：

- 你可以在 AI 上快速迭代实验。而那些技术做不到。
- 你只要能用上数据中心，就不需要复杂供应链。
- 不需要太多精妙设计。只要有足够的算力，很多设计都能跑得很好（MHA、MQA、MLA、DSA、CSA、HCS、LayerNorm、RMSNorm、Mamba Layers、不同Mamba/Transformer层数比例的混合设计、不同类型的跳接连接等等）。这就是那苦涩的一课。
- 零气泡流水线和内核这类东西设计起来很难，但和比如设计飞机最合适的空气动力学表面、或是保证半导体晶圆拥有完美晶体结构比，还是简单多了。
- 做AI确实需要筹集大量资本，收集/购买大量数据集；但这不是火箭科学（火箭科学真的很难，SpaceX 反复发生的事故已经证明了）。

没错，站在前沿很难，GDM 和 xAI 没能做到已经证明了这点；但他们的模型仍然能用，只是不是SOTA，也不是最好用而已。

还不信我？

1. 去随便读一篇AI论文的消融实验部分。删掉模型的很多部分，性能只会小幅下降（只有极少数情况下降幅很大）。试试飞飞机的时候少一侧机翼，或是半导体制造跳过某一道工序，肯定出灾难。

2. 去研究视频或音频模型。你会发现无数不同设计都能跑出很好的性能：基于流的(IF, NF)、扩散模型（Unets、Transformers、双路径）、自回归、流匹配，还有上千种排列组合。只要你有高质量数据和足够算力，大多数架构都能用。当然不同模型需要的算力不同，性能也有差异，但它们确实能用。

3. 用到的数学大多都很简单：最难的部分在扩散和流匹配里。但和硬核工程或是天体物理用的数学比，根本不值一提。大多数新手觉得RL（因为不稳定问题）和优化器很难，但花个一两天也就能搞懂。

那真正的魔法在哪里？

要说真有魔法，那也是那些能在一个封装里做出2000亿晶体管、单GPU显存带宽达到9TB/s、单GPU扩展带宽达到1.8TB/s、0.8Tb/s transceiver和100+Tb/s交换机的人创造的。这些技术才让反向传播的蛮力得以施展魔力（以上是B300的规格）。

别误会我：

AI确实需要努力工作和大量勤勉。它也需要强大的信念来凝聚团队、说服投资人，但它不是魔法，也不需要超人智商。不过这个神话还会继续流传：

知识蒸馏的神话会消逝；但「东亚妹子色诱AI老哥用U盘偷机密」的传说会一直活下去。这个传说更多反映的是AI极友找不到女朋友，还幻想着自己掌握的秘密能让自己被盯上 😊。

但正如我们所见，为什么这么多实验室都能做出好模型，解释其实很简单：这是一门相对容易掌握的技术。苦涩的一课加上反向传播，保证了每个有足够资源的实验室都能走到AGI/ASI。

可惜啊，根本没有漂亮间谍去湾区 house party 钓机密。这才是难咽的苦果。

给我的AI兄弟们满满的爱 ❤️！（要不报个萨尔萨舞班或是跑步俱乐部？）

本文由 AI 翻译自英文原帖，技术名词保留英文。

查看 X 原帖

📬 订阅 AI Pulse