每个人的使用环境千差万别,另外随着版本更新,安装方式也可能变化,所以还是参考官方文档进行安装吧,
第一次看到 ComfyUI 的界面,大部分都会有两个感觉,一个是陌生、一个是头大。

在正式开始之前,我们首先需要了解一下,生成一张图片用到哪些东西?

我们先看一下文生图的过程:

  1. 文本编码 首先将用户输入的文本提示词通过 CLIP 文本编码器转换成模型可以理解的向量表示。
  2. 噪声生成和去噪
  • 开始时生成一张完全随机的噪声图像
  • 然后通过多步迭代,逐渐将噪声转换成有意义的图像
  • 每一步都会参考文本编码得到的向量来指导去噪的方向
  • 通常需要 20-50 步的迭代
  1. 采样和优化
  • 使用采样器(如 DDIM、Euler a 等)来控制去噪过程
  • CFG Scale 参数用来控制图像与提示词的匹配程度
  • Steps 参数决定迭代次数,会影响生成质量和时间
  • 最终成图 经过完整的去噪过程后,噪声被转换成符合提示词描述的清晰图像。
  1. 这个过程可以类比成:从一张充满噪点的照片开始,通过不断擦拭镜头,逐渐显现出想要的图像。每一次擦拭都会参考提示词来决定往哪个方向擦。

如果把这个出图比作炒菜

那么这个提示词和模型就相当于我们的原料,原料有了,我们现在还需要一个厨子,采样器就是这个厨子,不同的采样器就好比不同的厨子,我们的这个厨子,还会自带一些调料,比如说采样步数,就好比是盐,每一道菜呢都不可缺少;提示词引导系数呢就好比是糖,加入合适的量呢可以去提鲜,seed 值就好比是刀工,不同的切法,同样的土豆既可以炒土豆丝,也可以炒土豆片。最后厨子、原料和调料都有了,我们还需要一口锅,这个锅就是我们的图片尺寸。有一些厨子还喜欢在这个出菜之后勾个芡,那这个芡呢就是传说中的 VAE,可以在一定程度上提升这个菜的观感和口感,但并不是每一道菜都需要勾芡。

说了这么多不知道大家饿了没,说了这么多,什么厨子 原料 炒菜什么的,主要是想给大家加深一下,对这些模块的印象

现在我们看一下comfyUI的基础流程
picture 0 comfyUI_basic-1737446844019