Stable Diffusion教程-Stable Diffusion模型

模型，有时也被称为检查点文件，是预训练的Stable Diffusion权重，用于生成通用或特定类型的图像。

一个模型能够生成哪些图像取决于用于训练的数据。如果训练数据中从未包含过猫的图像，那么模型将无法生成猫的图像。同样地，如果你只用猫的图像来训练模型，那么它只会生成猫的图像。

我们将介绍什么是模型，一些常见的模型（v1.4、v1.5、F222、Anything V3、Open Journey v4），以及如何安装、使用和合并它们。

精调模型

什么是精调？

精调是机器学习中常用的技术。它使用在广泛数据集上训练的模型，并在一个较窄的数据集上进行进一步的训练。

精调模型会偏向于生成与你的数据集类似的图像，同时保持原始模型的多样性。

为什么人们会制作它们？

Stable Diffusion非常出色，但并不能胜任所有任务。例如，通过在提示中使用关键词"anime"，它可以生成动漫风格的图像。但是，生成某个特定类型的动漫图像可能会有困难。你可以通过使用该特定类型的动漫图像来对模型进行精调，而不是修改提示。

它们是如何制作的？

制作精调模型有两种主要方法：（1）额外训练和（2）Dreambooth。它们都是从一个基础模型（如Stable Diffusion v1.4或v1.5）开始的。

额外训练是通过将基础模型与你感兴趣的额外数据集进行训练来实现的。例如，你可以使用一个包含复古汽车图像的额外数据集来训练Stable Diffusion v1.5，从而使生成的汽车图像偏向于该子类型的美学。

Dreambooth最初由Google开发，是一种将自定义主题注入到文本到图像模型中的技术。它可以使用仅有的3-5张自定义图像。你可以拍几张自己的照片，并使用Dreambooth将自己放入模型中。使用Dreambooth训练的模型需要一个特殊的关键词来指定模型的条件。

还有一种不太流行的精调技术称为文本反转（有时称为嵌入）。其目标与Dreambooth类似：使用少量示例将自定义主题注入到模型中。专门为新对象创建一个新的关键词。只有文本嵌入网络会进行精调，而其余部分保持不变。以通俗的语言来说，就像使用现有词汇来描述一个新的概念。

模型

模型分为v1和v2两个系列。本节将介绍v1系列模型，下一节将介绍v2系列模型。

目前已经存在数千个精调的Stable Diffusion模型，而且这个数量每天都在增加。以下是一些可用于一般目的的模型列表。

Stable diffusion v1.4

v1.4模型由Stability AI于2022年8月发布，被认为是首个公开可用的Stable Diffusion模型。

你可以将v1.4视为通用模型。大多数情况下，直接使用它就足够了，除非你对特定风格非常挑剔。

Stable diffusion v1.5

v1.5是由Stability AI的合作伙伴Runway ML于2022年10月发布的。该模型基于v1.2进行了进一步的训练。

模型页面没有详细说明改进之处。与v1.4相比，它产生了稍微不同的结果，但是否更好尚不清楚。

就像对待v1.4一样，你可以将v1.5视为通用模型。

根据我的经验，v1.5是一个很好的初始模型，可以与v1.4互换使用。

F222

F222最初是为生成裸体图片而训练的，但人们发现它在生成具有正确身体部位关系的美丽女性肖像方面非常有帮助。有趣的是，与你可能想的相反，它在生成具有美感的服装方面效果相当不错。

F222适用于肖像画。它具有生成裸体图片的高倾向性。在提示中包含“dress”和“jeans”等服装术语。

在这篇文章中可以找到更多逼真照片风格的模型。

Anything V3

Anything V3是一个专门用于生成高质量的动漫风格图像的模型。你可以在文本提示中使用danbooru标签（如1girl，white hair）。

它对于将名人形象转换为动漫风格非常有用，然后可以与插图元素无缝融合。

一个缺点（至少对我来说）是它生成的女性身材比例不协调。我喜欢用F222来调整它。

Open Journey

Open Journey是一个通过Mid Journey v4生成的图像进行精调的模型。它具有不同的美感，是一个很好的通用模型。

触发关键词：mdjrny-v4 style

模型比较

下面是使用相同提示和种子比较这些模型的结果。除了Anything v3之外，所有模型生成的图像都具有逼真性，但美感不同。

其他模型

有数百个可用的Stable Diffusion模型。其中许多是专门设计用于生成特定风格的特定目的模型。一些值得注意的模型包括：

DreamShaper

DreamShaper模型是为介于逼真绘画和计算机图形之间的肖像插画风格进行精调的。它易于使用，如果你喜欢这种风格，你会喜欢它。

ChilloutMix

ChilloutMix是一个专门用于生成亚洲女性照片质量的模型。它类似于F222的亚洲版本。与韩国的嵌入式ulzzang-6500-v1一起使用，可以生成类似韩流的女孩。

就像F222一样，它有时会生成裸体图片。在提示中使用像“dress”和“jeans”这样的服装术语，并在否定提示中使用“nude”来抑制这一倾向。

Waifu-diffusion

Waifu Diffusion是一种日本动漫风格。

Robo Diffusion

Robot Diffusion是一种有趣的机器人风格模型，它可以将你的每一个主题转化为机器人！

Mo-di-diffusion

图10

如果你想生成一些类似皮克斯风格的图像，这个模型适合你。

使用关键词：modern disney style

Inkpunk Diffusion

Inkpunk Diffusion是一个经过Dreambooth训练的具有非常独特插图风格的模型。

使用关键词：nvinkpunk

v2 模型

Stability AI发布了一个新系列的v2版本模型。目前已发布了2.0和2.1模型。v2模型的主要变化是：

除了512×512像素，还提供了更高分辨率的版本，即768×768像素。
由于训练中删除了色情材料，你无法再生成明确的内容。

你可能认为每个人都已经开始使用v2模型。然而，Stable Diffusion社区发现在2.0模型中图像看起来更糟。人们在使用名人姓名和艺术家姓名等关键词时也遇到了困难。

2.1 模型在一定程度上解决了这些问题。图像在默认情况下看起来更好。生成艺术风格更容易。

截至目前，大多数人还没有完全转向使用2.1模型。许多人偶尔使用它们，但大部分时间都与v1模型一起使用。

如果你决定尝试v2模型，请确保查看这些提示，以避免一些常见的困扰。

如何安装和使用模型

以下说明仅适用于v1模型。请参阅v2.0和v2.1的说明。

在AUTOMATIC1111 GUI中安装模型，下载并将检查点（.ckpt）文件放置在以下文件夹中：

stable-diffusion-webui/models/Stable-diffusion/

按下检查点下拉框旁边的“reload”按钮。

图12

你应该看到刚刚放入的检查点文件可供选择。选择新的检查点文件以使用该模型。

或者，你可以在“Generate”下按下“iPod”按钮。

图13

模型面板将显示。选择“Checkpoints”选项卡并选择一个模型。

如果你是AUTOMATIC1111 GUI的新手，一些模型已经预装在快速入门指南中的Colab笔记本中。

合并两个模型

图14

要使用AUTOMATIC1111 GUI合并两个模型，请转到“Checkpoint Merger”选项卡，并在“Primary model (A)”和“Secondary model (B)”中选择要合并的两个模型。

调整乘数（M）以调整两个模型的相对权重。将其设置为0.5将以相等的重要性合并两个模型。

按下“Run”后，新合并的模型将可供使用。

合并模型的示例

合并后的模型介于逼真的 F222 和动漫风格的 Anything V3 之间。它是生成带有人物的插图艺术非常出色的模型。

其他模型类型

有四种主要类型的文件被称为“模型”。让我们澄清一下，这样你就知道人们在谈论什么。

Checkpoint 模型：这些是真正的 Stable Diffusion 模型。它们包含生成图像所需的所有内容，不需要额外的文件。它们通常很大，一般为 2 到 7 GB。它们是本文讨论的主题。
文本反演模型：也称为嵌入模型。它们是定义用于生成新对象或风格的新关键词的小型文件。它们通常很小，一般为 10 到 100 KB。你必须与 Checkpoint 模型一起使用它们。
LoRA 模型：它们是用于修改风格的 Checkpoint 模型的小型补丁文件。通常为 10 到 200 MB。你必须与 Checkpoint 模型一起使用它们。
超网络模型：它们是添加到 Checkpoint 模型的额外网络模块。通常为 5 到 300 MB。你必须与 Checkpoint 模型一起使用它们。