对比不同版本的Stable Diffusion
Stable Diffusion 是 Stability AI 发布的开源文本到图像模型,它彻底改变了生成式 AI 领域。
自 2022 年首次发布以来,在过去几年中进行了多次迭代和改进。
以下是您需要了解的有关主要版本的信息:
+----------------+---------------+
| Version number | Release date |
+----------------+---------------+
| 1.1 | June 2022 |
| 1.2 | June 2022 |
| 1.3 | June 2022 |
| 1.4 | August 2022 |
| 1.5 | October 2022 |
| 2.0 | November 2022 |
| 2.1 | December 2022 |
| XL 1.0 | July 2023 |
| XL Turbo | November 2023 |
| Cascade | February 2024 |
| 3.0 | June 2024 |
+----------------+---------------+
Stable Diffusion 1.x 模型
第一代 Stable Diffusion 模型称为 1.x 系列,包括版本 1.1、1.2、1.3、1.4 和 1.5。
这些模型的分辨率为 512x512 像素,并使用 ViT-L/14 CLIP 模型进行文本调节。
1.x 模型有 8.6 亿个参数。
示例输出
重点事项
- 分辨率(像素):512x512
- 许可证:Creative ML OpenRAIL-M — 商业和非商业用途
此模型的优势:生成各种样式和主题。计算要求相对较低。
此模型的劣势:提示理解和解析不佳。毁容的主体。平淡无奇的图像。
微调模型
虽然 Stable Diffusion 1.5 提供的输出看起来并不那么好,但开源社区有更好的模型可用。
有数千种特定用例,包括照片真实感、卡通、动漫图像等。
例如,DreamShaper、Juggernaut 和 RealCartoon 只是众多依赖 Stable Diffusion 1.5 作为基本模型但提供惊人结果的模型中的一部分:
Stable Diffusion 2.x 模型
2.x 系列于 2022 年底发布,包括 2.0 和 2.1 版本。这些模型的分辨率提高到 768x768 像素,并使用名为 ViT-H/14 的不同 CLIP 模型,使提示更具表现力。
2.x 使用不同的 CLIP 模型使人们很难从 1.x 迁移,因为提示确实没有很好地传输——阻碍了它在开源社区中的广泛使用。
这些模型中的参数数量与 1.5 版本的相同, 860 million,参考他们的GITHUB README
示例输出
重点事项
- 分辨率(像素):768x768
- 许可证:CreativeML Open RAIL++-M — 商业和非商业用途
此模型的优势:与 1.x 模型相比,分辨率更高的输出。改进了对复杂和富有表现力的提示的处理。在建筑和景观主题上的表现更好,而在人物上的表现不是很好。不错的色彩动态范围。
此模型的劣势:对生成有更多的限制。审查名人和艺术风格。
微调模型
Stable Diffusion 2.0 和 2.1 不像 1.5 那样广泛地来自开源社区,但还是存在一些微调的模型。
Stable Diffusion 稳定扩散 XL 1.0
SDXL 2023 于 1.0 发布,提供可在消费级硬件上运行的 Midjourney 和 Dall-E 级输出。SDXL 的分辨率为 1024x1024 像素,并依靠 OpenCLIP-ViT/G 和 CLIP-ViT/L 进行文本调节,可以更轻松地获得您可能想要的结果。
根据 Stability AI 的初始版本,SDXL 1.0 有一个 3.5B 参数基本模型和一个 6.6B 参数模型集成管道:
示例输出
重点事项
- 分辨率(像素):1024x1024
- 许可证:CreativeML Open RAIL++-M 许可证 — 商业和非商业用途
此模型的优势:Stable Diffusion 模型中最高分辨率的输出。改进了颜色深度、构图和整体图像质量。更好地理解复杂的提示和概念。
此模型的劣势:需要大量计算资源才能在本地运行。在消费级硬件上运行可能具有挑战性。像手之类的事情仍然不太正确。
微调模型
开源社区已经接受了 SDXL,并发布了几个使用 SDXL 生成高质量输出的微调模型。
Juggernaut XL、DreamShaper XL、RealVisXL 和 Animagine XL 是最受欢迎的,可以服务于各种场景:
SDXL Turbo
SDXL Turbo 是 SD XL 1.0 的精简版本,专为快速生成 512x512 像素图像而设计。它使用与 SD XL 1.0 相同的文本调节模型,具有 35 亿个参数。SDXL Turbo 只需一步即可生成图像。
示例输出
重点事项
- 分辨率(像素):512x512
- 许可证:专有 — 仅限非商业用途
此模型的优势:在很短的时间内提供良好的输出。对应用程序和工作流进行原型设计。实时实验。
此模型的劣势:非商业许可证将其限制为仅个人和/或研究用途。
微调模型
与 2.1 一样,SDXL Turbo 的开源模型生态系统是有限的。虽然存在模型,但大多数创作者都致力于更流行的基本模型,包括 SDXL 和 SD 1.5。
Stable Cascade
Stable Cascade 是一种使用 Würstchen 架构的独特模型,可实现更高效的训练和推理。它分三个阶段(C、B 和 A)工作,压缩系数为 42:
阶段 C(10 亿或 36 亿个参数)和 B(7 亿或 15 亿个参数)是可互换的,允许您根据硬件要求和/或限制使用不同的模型。
与 SDXL Turbo 一样,Stable Cascade 是一种仅供研究使用的模型。
示例输出
重点事项
- 分辨率(像素):1024x1024
- 许可证:专有 — 仅限非商业用途
此模型的优势:提供 SDXL 质量输出和更好的提示理解。可能会提供更快的输出,具体取决于所使用的模型。手、牙齿等细节生成得更好。
此模型的劣势:需要大量 VRAM 来加载模型。开源社区的广泛支持还有待观察。
微调模型
目前,Stable Cascade 的微调模型很少。
Stable Diffusion 3.0
Stable Diffusion 系列的最新成员 Medium 模型 6 月 12 日正式开源
目前,Stable Diffusion 3 Medium 模型只能用于学术研究无法商业化。如果在正式开源后,想商业化的开发者可以联系 Stability AI。