Stable Diffusion 2中的Depth-to-image模型

在Stable Diffusion 2中的深度到图(Depth2img)是一个被低估的模型。它是image-to-image(img2img)的增强版,利用深度信息生成新图像。

在本教程中,我们将深入了解它的工作原理、安装和使用方法,以及它能为您提供什么帮助。

深度到图像能做什么

通过深度到图像,您可以更好地控制分别合成主体和背景。

假设我想把《爱乐之城》中的浪漫场景变成一场摔跤比赛...

图1

我们稍后会详细介绍,但现在只需将深度到图像视为image-to-image的增强版即可。它们可以以完全相同的方式使用——给定一张图像和一个文本提示,它将生成一张新图像。

假设我在image-to-image和深度到图像中使用以下提示:

photo of two men wrestling

对于不同的去噪强度(denoising strength)从0.4到1.0,以下是结果。(请记住,去噪强度越高,图像变化越大。)

图2

让我们看一下image-to-image生成的图像(顶部行)。我们遇到了一个问题:在较低的去噪强度下,图像变化不够大。在较高的去噪强度下,我们确实看到了两个摔跤选手,但原始构图被丢失了。

深度到图像解决了这个问题。您可以将去噪强度提高到1(最大值),而不会丢失原始构图!

现在您知道深度到图像能做什么了,让我们看看它是如何工作的。

那么深度到图像是什么呢?

回想一下,在image-to-image中,Stable Diffusion接受图像和提示作为输入。图像生成基于图像和提示两者。最终生成的图像在颜色和形状上与输入图像相似。

在深度到图像中,Stable Diffusion同样接受图像和提示作为输入。模型首先使用MIDaS(2019年开发的用于估计单视图深度感知的AI模型)来估计输入图像的深度图。然后,深度图作为额外的条件用于图像生成。

换句话说,深度到图像使用三个条件来生成新图像:(1)文本提示,(2)原始图像和(3)深度图。借助深度图,模型对场景的三维构成有了一定的了解,可以分离前景对象和背景的图像生成。

深度图

使用深度到图像时,您不需要提供深度图。本部分是为了教育目的而再现深度图。

深度图是一种简单的灰度图像,与原始图像大小相同,编码深度信息。完全白色表示对象最靠近您。越黑表示距离越远。

这是一个图像及其由MIDaS估计的深度图的示例。

图3

让我们将图像和深度图结合起来(使用Depthy)。将指针悬停在图像上以查看效果。

图4

安装depth-to-image模型

如何安装

在AUTOMATIC1111 GUI中安装深度到图像模型:

  1. 下载模型文件(512-depth-ema.ckpt)。
  2. 下载配置文件,并将其重命名为512-depth-ema.yaml。

将两者放入模型目录中:

stable-diffusion-webui/models/Stable-diffusion

如何使用

要使用模型,在左上角的检查点下拉框旁边按下刷新按钮。选择512-depth-ema.ckpt以加载模型。

图5

请注意,深度模型可用于image-to-image和inpainting,但无法用于text-to-image。如果尝试这样做,您将看到一个错误。

要使用模型,请转到img2img选项卡。按照img2img和inpainting的说明使用。

正如模型名称所示,这是一个512模型。这意味着当新图像的至少一边为512像素时,它的效果最好。

一些使用想法

现在让我们来看看一些使用案例。

img2img的替代方案

假设您有一张像这样的肖像照片。

图6

您希望通过加入一位亚洲女性来增加一些变化。但是,您已经设计了围绕他的其他元素,因此不希望人的形状发生变化。

您可以使用img2img实现这一点,但是您不能将去噪强度设置得太高,因为这样会丢失原始形状。

使用img2img,这是您能做的最好的:

图7

形状有些变化,但不太糟糕。然而,去噪强度仍然太低,无法改变原始人物的肤色。而且“长发”提示没有被遵循。

现在的困境是:将去噪强度提高到1会得到我们想要的结果,但会丢失原始形状:

图8

使用深度到图像模型,我们可以将去噪强度设置为1,而不会丢失原始形状:

图9

请注意,人物的形状完全保留了下来,并且Stable Diffusion想出了如何呈现长发。

修复缺陷和创造新事物的修补

您可以在修复缺陷或创建新事物时同样使用深度到图像,无论是修复缺陷还是创造新事物。

图10

风格转移

深度到图像的一个优势是您可以将去噪强度调至1,而不会丢失构图。这使得将场景转换为不同风格变得很容易。

以下是一些示例:

图11

窃取一个姿势

使用Stable Diffusion很难生成特定的人体姿势。但是,使用深度到图像,您可以使用具有所需姿势的照片作为基本图像。将去噪强度设置为1,然后您就可以了!深度到图像完全保留了姿势。该照片可以是电影场景、绘画或您用手机拍摄的照片。

标签: AI绘画教程, AI绘画教程网, AI绘画, Stable Diffusion, Stable Diffusion教程, Stable Diffusion社区, Stable Diffusion社群, Stable Diffusion中文社区, Stable Diffusion入口, Stable Diffusion注册, Stable Diffusion注册教程, Stable Diffusion共享账号