📡 X 信号

Ideogram 4.0开源模型发布一周，社区涌现JSON提示、LoRA与高精度控制应用

@ideogram_ai 3.0万浏览 · 448 喜欢 · 53 转推 · 312 收藏 AI开源工程

一周前，我们发布了 Ideogram 4.0——我们的首个开源权重模型。自发布以来，开源社区与创意社区的探索已远超我们最初的想象。JSON 格式与边界框（bounding box）提示似乎正成为新标准。第一周社区亮点如下：

1. JSON 边界框提示同时提升了定制化程度与生成准确性。每个元素都拥有独立的图注（caption）和指定位置，而 4.0 会严格按你设定的位置渲染对应内容。图片来自 r/StableDiffusion 用户 u/Far_Insurance4191。

2. 权重发布仅四天后，即出现完整风格 LoRA。训练仅使用 100 张图像，采用基础 AI Toolkit 设置。该风格在所有元素中保持高度一致：包括全新角色、全新场景，甚至文字排版。图片来自 r/StableDiffusion 用户 u/TheDudeWithThePlan。

3. 下方每张图像均使用随机种子 1（Seed 1）生成。均为首次生成结果，未做筛选、未重试、未放大、未后期处理。全部在配备 8GB 显存的 RTX 3060 Ti 上以 2 百万像素分辨率生成。图片来自 r/StableDiffusion 用户 u/Puzzled-Valuable-985。

4. “控制力”正成为围绕 4.0 讨论最热烈的主题。现在，你只需数次生成，即可获得其他本地模型需尝试上百个随机种子才能达到的同等效果。首图即实现高质量文本渲染，使用户得以专注图像其余部分。图片来自……

5. 双角色 LoRA，角色身份精准锁定、零混淆（zero bleed）。依托 4.0 的区域化图注与提示能力，每个角色身份被严格限定于画面中的指定区域。“这是我首次能在某个模型上成功实现这一效果。”

6. 用户构建了提示编译器（prompt compilers），可将自然语言与图像自动转换为 JSON 提示。该编译器本地运行 qwen 3.6 27B 模型。热评第一：“该模型在本地部署模型中所具备的知识量无出其右，且参数量仅为 9.3B。”图片来自 r/StableDiffusion 用户 u/Producing_It。

7. 电影级构图生成效果。数十个重复人物与镜像反射，全程无结构坍缩（zero collapse）。评论者称其达到了另一层次的连贯性与控制力。图片来自 r/StableDiffusion 用户 u/Beautiful_Egg6188。

8. 漫画页与分镜脚本，逐格生成，每格均带边界框。精确控制面板布局、对话气泡与文字排版，实现对整页的完全掌控。即使不使用 LoRA，各格之间仍保持高度一致性。图片来自 r/StableDiffusion 用户 u/echothought。

9. CRT 显示屏效果，含精细扫描线、屏幕曲率与反射细节。“这种保真度与细节表现，是其他任何模型都无法企及的。”图片来自 r/StableDiffusion 用户 u/Beautiful_Egg6188。

短短一周内，社区已开发出训练器、提示编译器、LoRA 以及整套工作流。欢迎回复你最出色的生成结果，我们将择优纳入下一期社区亮点汇总帖。

本文由 AI 翻译自英文原帖，技术名词保留英文。

查看 X 原帖

📬 订阅 AI Pulse