英伟达开源26亿参数世界模型,一张图生成3D世界
英伟达开源了一个26亿参数的世界模型。给它一张图片、一段文字说明和运动轨迹,它就能生成一个可控的3D空间——不是静态渲染图,而是你可以走进去、转视角的那种。
过去这类模型需要云服务器撑着,现在门槛直接跌穿。它跑在一张消费级GPU上,租用成本差不多0.40美元一个小时,算下来不到三块钱。也就是说,手头有普通游戏电脑的人,或者愿意花几块钱租云显卡的人,都能玩得转。
模型完全开源:代码挂在GitHub上,论文也贴到了arXiv。下载、修改、部署随便你,不用依赖厂商的付费接口。对个人开发者和小型研究团队来说,这就是一个可以直接上手改的基础工具。
英伟达说它可以拿来搞具身AI之类的事——把2D图或文字转成3D底层空间,让机器在虚拟环境里自己动起来。
不过目前有些东西还不清楚:生成出来的世界有多真?输入图片有没有分辨率或内容限制?开源许可的具体条款——尤其是能不能用在商业项目上——也没说明白。也许很快会有人推出便宜的API服务,进一步把门槛踩平。
开源的结果很直接:任何人只要有自己的显卡,就能跑这个模型。3D世界生成不再是昂贵云服务的专属。