AI Pulse
📡 X 信号

有人怼了闭源 labs 指责开源偷代码的说法

宝贝醒醒,新的借口来了:「开源实验室之所以亮眼,全是因为他们偷了我们内部 GitHub 代码和文档,还偷看了 Slack」🤦‍♂️。

而真正的原因是——虽然难以置信——AI 其实是一门相对容易掌握的关键技术 ☺️。

抱歉了 AI 实验室兄弟们,如果你们的自尊建立在「AI 神秘又难搞」的基础上 💔。不过话说回来,你当然可以继续跟约会对象吹牛逼 👍。其他人,听我说:

把它拿来和制造半导体芯片(或是其中某个环节,比如 CoWoS 封装)、造商用飞机比,哪怕只是做飞机发动机的单晶叶片比!AI 更容易掌握,原因在于:

- 你可以在 AI 上快速迭代实验。而那些技术做不到。
- 你只要能用上数据中心,就不需要复杂供应链。
- 不需要太多精妙设计。只要有足够的算力,很多设计都能跑得很好(MHA、MQA、MLA、DSA、CSA、HCS、LayerNorm、RMSNorm、Mamba Layers、不同Mamba/Transformer层数比例的混合设计、不同类型的跳接连接等等)。这就是那苦涩的一课。
- 零气泡流水线和内核这类东西设计起来很难,但和比如设计飞机最合适的空气动力学表面、或是保证半导体晶圆拥有完美晶体结构比,还是简单多了。
- 做AI确实需要筹集大量资本,收集/购买大量数据集;但这不是火箭科学(火箭科学真的很难,SpaceX 反复发生的事故已经证明了)。

没错,站在前沿很难,GDM 和 xAI 没能做到已经证明了这点;但他们的模型仍然能用,只是不是SOTA,也不是最好用而已。

还不信我?

1. 去随便读一篇AI论文的消融实验部分。删掉模型的很多部分,性能只会小幅下降(只有极少数情况下降幅很大)。试试飞飞机的时候少一侧机翼,或是半导体制造跳过某一道工序,肯定出灾难。

2. 去研究视频或音频模型。你会发现无数不同设计都能跑出很好的性能:基于流的(IF, NF)、扩散模型(Unets、Transformers、双路径)、自回归、流匹配,还有上千种排列组合。只要你有高质量数据和足够算力,大多数架构都能用。当然不同模型需要的算力不同,性能也有差异,但它们确实能用。

3. 用到的数学大多都很简单:最难的部分在扩散和流匹配里。但和硬核工程或是天体物理用的数学比,根本不值一提。大多数新手觉得RL(因为不稳定问题)和优化器很难,但花个一两天也就能搞懂。

那真正的魔法在哪里?

要说真有魔法,那也是那些能在一个封装里做出2000亿晶体管、单GPU显存带宽达到9TB/s、单GPU扩展带宽达到1.8TB/s、0.8Tb/s transceiver和100+Tb/s交换机的人创造的。这些技术才让反向传播的蛮力得以施展魔力(以上是B300的规格)。

别误会我:

AI确实需要努力工作和大量勤勉。它也需要强大的信念来凝聚团队、说服投资人,但它不是魔法,也不需要超人智商。不过这个神话还会继续流传:

知识蒸馏的神话会消逝;但「东亚妹子色诱AI老哥用U盘偷机密」的传说会一直活下去。这个传说更多反映的是AI极友找不到女朋友,还幻想着自己掌握的秘密能让自己被盯上 😊。

但正如我们所见,为什么这么多实验室都能做出好模型,解释其实很简单:这是一门相对容易掌握的技术。苦涩的一课加上反向传播,保证了每个有足够资源的实验室都能走到AGI/ASI。

可惜啊,根本没有漂亮间谍去湾区 house party 钓机密。这才是难咽的苦果。

给我的AI兄弟们满满的爱 ❤️!(要不报个萨尔萨舞班或是跑步俱乐部?)

本文由 AI 翻译自英文原帖,技术名词保留英文。

查看 X 原帖

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部