搞AI动手能力，现在不用再拼凑三四个代码库了

📅 2026 年 4 月 23 日 📖 约 2 分钟 @MercatJean on 𝕏 AI开源工程

以前搞个能看能说还能动手的AI，得东拼西凑三四个代码库，接口对不上、版本不兼容，光调试脚本就能耗掉半条命。

现在 VLA Foundry 把 LLM、VLM 和 VLA 的训练全收进一个开源仓库，从语言预训练一路干到动作微调，端到端打通。训练过程不再是黑盒串烧，而是可追溯、可复现的流水线——像饭馆后厨终于有了标准菜谱，不用每次靠老师傅手抖放盐。

你可以从零开练，也可以拿 Hugging Face 上现成的主干（比如 Qwen3-VL）接着训。团队两种都试了，权重也全公开了。

在 LBM Eval 仿真环境里，基于 Qwen3-VL 微调的 VLA 比老基线高出 20% 多。视觉语言底子厚了，动手确实更稳。

但别想多了——这模型干纯文本会变笨，做图像描述也拉胯。它压根不是冲着通用智能去的。

统一训练不是为了啥全能选手，而是给“动作闭环”这条窄路铺上标准化轨道。牛皮吹爆了也没用，能复用、能共享、能跑通，才是工程师要的实在货。