搞AI动手能力,现在不用再拼凑三四个代码库了
以前搞个能看能说还能动手的AI,得东拼西凑三四个代码库,接口对不上、版本不兼容,光调试脚本就能耗掉半条命。
现在 VLA Foundry 把 LLM、VLM 和 VLA 的训练全收进一个开源仓库,从语言预训练一路干到动作微调,端到端打通。训练过程不再是黑盒串烧,而是可追溯、可复现的流水线——像饭馆后厨终于有了标准菜谱,不用每次靠老师傅手抖放盐。
你可以从零开练,也可以拿 Hugging Face 上现成的主干(比如 Qwen3-VL)接着训。团队两种都试了,权重也全公开了。
在 LBM Eval 仿真环境里,基于 Qwen3-VL 微调的 VLA 比老基线高出 20% 多。视觉语言底子厚了,动手确实更稳。
但别想多了——这模型干纯文本会变笨,做图像描述也拉胯。它压根不是冲着通用智能去的。
统一训练不是为了啥全能选手,而是给“动作闭环”这条窄路铺上标准化轨道。牛皮吹爆了也没用,能复用、能共享、能跑通,才是工程师要的实在货。