Stable Diffusion教程-Stable Diffusion 2中的Depth-to-image模型

Stable Diffusion 2中的Depth-to-image模型

在Stable Diffusion 2中的深度到图（Depth2img）是一个被低估的模型。它是image-to-image（img2img）的增强版，利用深度信息生成新图像。

在本教程中，我们将深入了解它的工作原理、安装和使用方法，以及它能为您提供什么帮助。

深度到图像能做什么

通过深度到图像，您可以更好地控制分别合成主体和背景。

假设我想把《爱乐之城》中的浪漫场景变成一场摔跤比赛...

我们稍后会详细介绍，但现在只需将深度到图像视为image-to-image的增强版即可。它们可以以完全相同的方式使用——给定一张图像和一个文本提示，它将生成一张新图像。

假设我在image-to-image和深度到图像中使用以下提示：

photo of two men wrestling

对于不同的去噪强度（denoising strength）从0.4到1.0，以下是结果。（请记住，去噪强度越高，图像变化越大。）

让我们看一下image-to-image生成的图像（顶部行）。我们遇到了一个问题：在较低的去噪强度下，图像变化不够大。在较高的去噪强度下，我们确实看到了两个摔跤选手，但原始构图被丢失了。

深度到图像解决了这个问题。您可以将去噪强度提高到1（最大值），而不会丢失原始构图！

现在您知道深度到图像能做什么了，让我们看看它是如何工作的。

那么深度到图像是什么呢？

回想一下，在image-to-image中，Stable Diffusion接受图像和提示作为输入。图像生成基于图像和提示两者。最终生成的图像在颜色和形状上与输入图像相似。

在深度到图像中，Stable Diffusion同样接受图像和提示作为输入。模型首先使用MIDaS（2019年开发的用于估计单视图深度感知的AI模型）来估计输入图像的深度图。然后，深度图作为额外的条件用于图像生成。

换句话说，深度到图像使用三个条件来生成新图像：（1）文本提示，（2）原始图像和（3）深度图。借助深度图，模型对场景的三维构成有了一定的了解，可以分离前景对象和背景的图像生成。

深度图

使用深度到图像时，您不需要提供深度图。本部分是为了教育目的而再现深度图。

深度图是一种简单的灰度图像，与原始图像大小相同，编码深度信息。完全白色表示对象最靠近您。越黑表示距离越远。

这是一个图像及其由MIDaS估计的深度图的示例。

让我们将图像和深度图结合起来（使用Depthy）。将指针悬停在图像上以查看效果。

安装depth-to-image模型

如何安装

在AUTOMATIC1111 GUI中安装深度到图像模型：

下载模型文件（512-depth-ema.ckpt）。
下载配置文件，并将其重命名为512-depth-ema.yaml。

将两者放入模型目录中：

stable-diffusion-webui/models/Stable-diffusion

如何使用

要使用模型，在左上角的检查点下拉框旁边按下刷新按钮。选择512-depth-ema.ckpt以加载模型。

请注意，深度模型可用于image-to-image和inpainting，但无法用于text-to-image。如果尝试这样做，您将看到一个错误。

要使用模型，请转到img2img选项卡。按照img2img和inpainting的说明使用。

正如模型名称所示，这是一个512模型。这意味着当新图像的至少一边为512像素时，它的效果最好。

一些使用想法

现在让我们来看看一些使用案例。

img2img的替代方案

假设您有一张像这样的肖像照片。

您希望通过加入一位亚洲女性来增加一些变化。但是，您已经设计了围绕他的其他元素，因此不希望人的形状发生变化。

您可以使用img2img实现这一点，但是您不能将去噪强度设置得太高，因为这样会丢失原始形状。

使用img2img，这是您能做的最好的：

形状有些变化，但不太糟糕。然而，去噪强度仍然太低，无法改变原始人物的肤色。而且“长发”提示没有被遵循。

现在的困境是：将去噪强度提高到1会得到我们想要的结果，但会丢失原始形状：

使用深度到图像模型，我们可以将去噪强度设置为1，而不会丢失原始形状：

请注意，人物的形状完全保留了下来，并且Stable Diffusion想出了如何呈现长发。

修复缺陷和创造新事物的修补

您可以在修复缺陷或创建新事物时同样使用深度到图像，无论是修复缺陷还是创造新事物。

图10

风格转移

深度到图像的一个优势是您可以将去噪强度调至1，而不会丢失构图。这使得将场景转换为不同风格变得很容易。

以下是一些示例：

图11

窃取一个姿势

使用Stable Diffusion很难生成特定的人体姿势。但是，使用深度到图像，您可以使用具有所需姿势的照片作为基本图像。将去噪强度设置为1，然后您就可以了！深度到图像完全保留了姿势。该照片可以是电影场景、绘画或您用手机拍摄的照片。