Stable Diffusion 是 Stability AI 发布的开源文本到图像模型,它彻底改变了生成式 AI 领域。

自 2022 年首次发布以来,在过去几年中进行了多次迭代和改进。

以下是您需要了解的有关主要版本的信息:

+----------------+---------------+
| Version number | Release date  |
+----------------+---------------+
| 1.1            | June 2022     |
| 1.2            | June 2022     |
| 1.3            | June 2022     |
| 1.4            | August 2022   |
| 1.5            | October 2022  |
| 2.0            | November 2022 |
| 2.1            | December 2022 |
| XL 1.0         | July 2023     |
| XL Turbo       | November 2023 |
| Cascade        | February 2024 |
| 3.0            | June 2024   |
+----------------+---------------+

Stable Diffusion 1.x 模型

第一代 Stable Diffusion 模型称为 1.x 系列,包括版本 1.1、1.2、1.3、1.4 和 1.5。

这些模型的分辨率为 512x512 像素,并使用 ViT-L/14 CLIP 模型进行文本调节。

1.x 模型有 8.6 亿个参数。

示例输出
picture 1 pic_1735267335150-1735267339068
picture 2 pic_1735267373186-1735267375851
picture 3 pic_1735267391273-1735267392919
picture 4 pic_1735267402009-1735267406305

重点事项

此模型的优势:生成各种样式和主题。计算要求相对较低。

此模型的劣势:提示理解和解析不佳。毁容的主体。平淡无奇的图像。

微调模型
虽然 Stable Diffusion 1.5 提供的输出看起来并不那么好,但开源社区有更好的模型可用。

有数千种特定用例,包括照片真实感、卡通、动漫图像等。

例如,DreamShaperJuggernautRealCartoon 只是众多依赖 Stable Diffusion 1.5 作为基本模型但提供惊人结果的模型中的一部分:
picture 6 pic_1735267769074-1735267770809
picture 7 pic_1735267789208-1735267791110
picture 8 pic_1735267808324-1735267810789
picture 9 pic_1735267824052-1735267828462

Stable Diffusion 2.x 模型

2.x 系列于 2022 年底发布,包括 2.0 和 2.1 版本。这些模型的分辨率提高到 768x768 像素,并使用名为 ViT-H/14 的不同 CLIP 模型,使提示更具表现力。

2.x 使用不同的 CLIP 模型使人们很难从 1.x 迁移,因为提示确实没有很好地传输——阻碍了它在开源社区中的广泛使用。

这些模型中的参数数量与 1.5 版本的相同, 860 million,参考他们的GITHUB README

示例输出
picture 10 pic_1735268052031-1735268053340
picture 11 pic_1735268062173-1735268063665
picture 12 pic_1735268074196-1735268076197
picture 13 pic_1735268089075-1735268090963

重点事项

  • 分辨率(像素):768x768
  • 许可证:CreativeML Open RAIL++-M — 商业和非商业用途

此模型的优势:与 1.x 模型相比,分辨率更高的输出。改进了对复杂和富有表现力的提示的处理。在建筑和景观主题上的表现更好,而在人物上的表现不是很好。不错的色彩动态范围。

此模型的劣势:对生成有更多的限制。审查名人和艺术风格。

微调模型
Stable Diffusion 2.0 和 2.1 不像 1.5 那样广泛地来自开源社区,但还是存在一些微调的模型。

Stable Diffusion 稳定扩散 XL 1.0

SDXL 2023 于 1.0 发布,提供可在消费级硬件上运行的 Midjourney 和 Dall-E 级输出。SDXL 的分辨率为 1024x1024 像素,并依靠 OpenCLIP-ViT/G 和 CLIP-ViT/L 进行文本调节,可以更轻松地获得您可能想要的结果。

根据 Stability AI 的初始版本,SDXL 1.0 有一个 3.5B 参数基本模型和一个 6.6B 参数模型集成管道

picture 14 pic_1735268554706-1735268556602

示例输出
picture 15 pic_1735268588263-1735268590219
picture 16 pic_1735268599304-1735268600308
picture 17 pic_1735268609091-1735268609871
picture 18 pic_1735268618109-1735268619552

重点事项

此模型的优势:Stable Diffusion 模型中最高分辨率的输出。改进了颜色深度、构图和整体图像质量。更好地理解复杂的提示和概念。

此模型的劣势:需要大量计算资源才能在本地运行。在消费级硬件上运行可能具有挑战性。像手之类的事情仍然不太正确。

微调模型
开源社区已经接受了 SDXL,并发布了几个使用 SDXL 生成高质量输出的微调模型。

Juggernaut XLDreamShaper XLRealVisXLAnimagine XL 是最受欢迎的,可以服务于各种场景:
picture 19 pic_1735268923267-1735268924865
picture 20 pic_1735268936255-1735268937341
picture 21 pic_1735268947021-1735268948885
picture 22 pic_1735268958669-1735268959535

SDXL Turbo

SDXL Turbo 是 SD XL 1.0 的精简版本,专为快速生成 512x512 像素图像而设计。它使用与 SD XL 1.0 相同的文本调节模型,具有 35 亿个参数。SDXL Turbo 只需一步即可生成图像。

示例输出
picture 23 pic_1735269360647-1735269362851

picture 24 pic_1735269373399-1735269376905
picture 25 pic_1735269386451-1735269388299
picture 26 pic_1735269400816-1735269401966

重点事项

  • 分辨率(像素):512x512
  • 许可证:专有 — 仅限非商业用途

此模型的优势:在很短的时间内提供良好的输出。对应用程序和工作流进行原型设计。实时实验。

此模型的劣势:非商业许可证将其限制为仅个人和/或研究用途。

微调模型
与 2.1 一样,SDXL Turbo 的开源模型生态系统是有限的。虽然存在模型,但大多数创作者都致力于更流行的基本模型,包括 SDXL 和 SD 1.5。

Stable Cascade

Stable Cascade 是一种使用 Würstchen 架构的独特模型,可实现更高效的训练和推理。它分三个阶段(C、B 和 A)工作,压缩系数为 42:
picture 27 pic_1735269596647-1735269597616

阶段 C(10 亿或 36 亿个参数)和 B(7 亿或 15 亿个参数)是可互换的,允许您根据硬件要求和/或限制使用不同的模型。

与 SDXL Turbo 一样,Stable Cascade 是一种仅供研究使用的模型。

示例输出
picture 28 pic_1735269633312-1735269635316
picture 29 pic_1735269643276-1735269644527

picture 30 pic_1735269652412-1735269654361
picture 31 pic_1735269662973-1735269666399
picture 32 pic_1735269679869-1735269681331

重点事项

  • 分辨率(像素):1024x1024
  • 许可证:专有 — 仅限非商业用途

此模型的优势:提供 SDXL 质量输出和更好的提示理解。可能会提供更快的输出,具体取决于所使用的模型。手、牙齿等细节生成得更好。

此模型的劣势:需要大量 VRAM 来加载模型。开源社区的广泛支持还有待观察。

微调模型
目前,Stable Cascade 的微调模型很少。

Stable Diffusion 3.0
Stable Diffusion 系列的最新成员 Medium 模型 6 月 12 日正式开源

目前,Stable Diffusion 3 Medium 模型只能用于学术研究无法商业化。如果在正式开源后,想商业化的开发者可以联系 Stability AI。