AI Pulse
📡 X 信号

Ideogram 4.0开源模型发布一周,社区涌现JSON提示、LoRA与高精度控制应用

一周前,我们发布了 Ideogram 4.0——我们的首个开源权重模型。自发布以来,开源社区与创意社区的探索已远超我们最初的想象。JSON 格式与边界框(bounding box)提示似乎正成为新标准。第一周社区亮点如下:

1. JSON 边界框提示同时提升了定制化程度与生成准确性。每个元素都拥有独立的图注(caption)和指定位置,而 4.0 会严格按你设定的位置渲染对应内容。图片来自 r/StableDiffusion 用户 u/Far_Insurance4191。

2. 权重发布仅四天后,即出现完整风格 LoRA。训练仅使用 100 张图像,采用基础 AI Toolkit 设置。该风格在所有元素中保持高度一致:包括全新角色、全新场景,甚至文字排版。图片来自 r/StableDiffusion 用户 u/TheDudeWithThePlan。

3. 下方每张图像均使用随机种子 1(Seed 1)生成。均为首次生成结果,未做筛选、未重试、未放大、未后期处理。全部在配备 8GB 显存的 RTX 3060 Ti 上以 2 百万像素分辨率生成。图片来自 r/StableDiffusion 用户 u/Puzzled-Valuable-985。

4. “控制力”正成为围绕 4.0 讨论最热烈的主题。现在,你只需数次生成,即可获得其他本地模型需尝试上百个随机种子才能达到的同等效果。首图即实现高质量文本渲染,使用户得以专注图像其余部分。图片来自……

5. 双角色 LoRA,角色身份精准锁定、零混淆(zero bleed)。依托 4.0 的区域化图注与提示能力,每个角色身份被严格限定于画面中的指定区域。“这是我首次能在某个模型上成功实现这一效果。”

6. 用户构建了提示编译器(prompt compilers),可将自然语言与图像自动转换为 JSON 提示。该编译器本地运行 qwen 3.6 27B 模型。热评第一:“该模型在本地部署模型中所具备的知识量无出其右,且参数量仅为 9.3B。”图片来自 r/StableDiffusion 用户 u/Producing_It。

7. 电影级构图生成效果。数十个重复人物与镜像反射,全程无结构坍缩(zero collapse)。评论者称其达到了另一层次的连贯性与控制力。图片来自 r/StableDiffusion 用户 u/Beautiful_Egg6188。

8. 漫画页与分镜脚本,逐格生成,每格均带边界框。精确控制面板布局、对话气泡与文字排版,实现对整页的完全掌控。即使不使用 LoRA,各格之间仍保持高度一致性。图片来自 r/StableDiffusion 用户 u/echothought。

9. CRT 显示屏效果,含精细扫描线、屏幕曲率与反射细节。“这种保真度与细节表现,是其他任何模型都无法企及的。”图片来自 r/StableDiffusion 用户 u/Beautiful_Egg6188。

短短一周内,社区已开发出训练器、提示编译器、LoRA 以及整套工作流。欢迎回复你最出色的生成结果,我们将择优纳入下一期社区亮点汇总帖。

本文由 AI 翻译自英文原帖,技术名词保留英文。

查看 X 原帖

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部