AI现在能画出你没说出口的细节
左边是2021年ModelScope上早期开源图像生成模型的输出,右边是2024年Grok Imagine v1的结果。两图并置,无需文字说明,差异已经清晰可见。
旧模型画“穿红裙子的女人”,裙子常常浮在半空,手臂和躯干之间留着不合逻辑的缝隙。它没搞懂人体结构和布料垂坠之间的物理关系,只是把训练数据里高频出现的片段硬拼在一起。
Grok Imagine v1面对同样的提示,女人站在带阴影的台阶上,裙摆被微风轻轻带起一道弧线,脚边还有一小片反光。这些细节没人写进提示词,却自然出现了。
模型已经内化了光照、重力、材质反射这些隐性规则。它不再等你喂关键词。
过去三年,真正变化的不是算力堆得多快,而是模型对“世界怎么运转”的理解有多深。它开始用常识填补空白,而不是靠统计猜空格。
当AI能自发补全人类觉得理所当然的细节,它的角色就悄悄变了。现在它画出你没说出口的东西,可能不是模仿——而是一次基于物理常识的推演。