企业项目管理、ORK、研发管理与敏捷开发工具平台

网站首页 > 精选文章 正文

GAN系列:深入了解DCGAN

wudianyun 2025-05-25 15:53:19 精选文章 5 ℃


关于DCGAN的上一篇文章主要集中在用卷积层替换完全连接层并用Keras实现上采样卷积的想法。

本文将进一步解释Raford等人提到的体系结构,以及本文中提到的其他主题,例如使用GAN的无监督特征学习,GAN过度拟合 GAN Overfitting和潜在空间插值 Latent Space Interpolation。


DCGAN architecture used by Radford et al. to generate 64x64 RGB bedroom images from the LSUN dataset

与LAPGAN和Progressively-Growing GAN等多尺度体系结构相反,或与最新的BigGAN相比,BigGAN使用许多辅助技术,例如自注意力,谱归一化和鉴别投影一些…DCGAN是一个更容易理解的系统。

DCGAN无法获得与BigGAN模型相当的图像质量,并且不具备与StyleGAN几乎相同的潜在空间控制。但是,仍然值得考虑将DCGAN作为GAN研究的基础。DCGAN模型的基本组成部分是用这些上采样卷积层替换生成器中的完全连接层。在设计此体系结构时,作者引用了三个灵感来源。

  1. 所有卷积网 → 用空间下采样卷积代替池化操作
  2. 卷积后消除完全连接的层
  3. 批量归一化 Batch Normalization → 归一化激活以帮助梯度流动

考虑到这些改进,作者寻求稳定的DC-GAN架构,并遵循以下架构准则:

  • 用鉴别器中的跨步卷积和生成器中的分数跨步卷积替换所有池化层
  • 在生成器和鉴别器中使用Batch Normalization
  • 删除完全连接的隐藏层以获得更深层次的体系结构
  • 在生成器中对所有层使用ReLU激活,输出中不包括Tanh (这些图像在 [-1,1]而不是 [0,1]之间进行归一化,因此Tanh函数优于sigmoid函数)
  • 对所有层在鉴别器中使用LeakyReLU激活

这些体系结构准则后来在现代GAN流派中得到了扩展。例如,生成模型中的Batch Normalization 具有新的表亲,例如虚拟批处理归一化 Virtual Batch Normalization,实例归一化 Instance Normalization和自适应实例归一化 Adaptive Instance Normalization。Salimans等人提出了进一步的架构指南,并得到了很好的解释。

除了模型架构外,本文还讨论了许多与GAN相关的有趣想法,例如无监督学习,GAN过度拟合,GAN特征可视化和潜在空间插值 Latent Space Interpolation。

GAN的无监督学习 Unsupervised Learning with GANs

已经探索了GAN的许多应用,并且许多研究都在试图实现更高质量的图像合成。许多用于实现高质量图像合成的方法都是真正的监督学习技术,因为它们需要进行分类的标签。

这里的主要思想是将鉴别器学习到的特征用作分类模型的特征提取器。

具体来说,Radford等探索了结合L2 + SVM分类模型的无监督GAN特征提取器的使用。SVM模型使用损失函数,该函数旨在基于每个类别中最近点之间的margin和高维超平面来最大化类别间距离。

SVM模型是一个很好的分类器,但是它不是特征提取器,因此将SVM应用到图像会导致大量的局部最小值,从而使问题变得棘手。因此,DC-GAN用作特征提取器,以语义保留的方式降低图像的维数,从而使SVM可以学习判别模型。

GAN过度拟合 GAN Overfitting

重新阅读本文,我认为GAN过度拟合的想法特别有趣。在监督学习的情况下过度拟合非常直观:



上图是回归任务中过度拟合的常见图示。过度参数化的模型会进行自我调整,以使其与训练数据完全匹配且没有错误。摆脱偏差方差折衷的统计数据,我们可以直观地将过度拟合视为模型的可推广性,与模型测试数据相比,模型在训练数据上的表现如何。

在GAN中,这是一个非常有趣的想法。生成器的任务是生成鉴别器预测为“真实”的数据,这意味着它与训练数据集非常相似。如果生成器放弃将随机变化添加到数据点的任何尝试并仅精确模拟训练数据,则似乎是最成功的。Radford等。讨论三种有趣的方法来表明他们的DC-GAN模型没有做到这一点。

  1. 启发式近似 Heuristic approximation:快速学习的模型可以很好地概括
  2. 自动编码器哈希冲突 Auto-encoder hash collisions (训练3072–128–3072自动编码器对生成的数据和原始数据进行编码,并查看生成的数据和原始数据之间有多少类似的低维(128)表示形式。
  3. 潜在空间的平滑度 Smoothness of Latent Space (尖锐过渡=过度拟合)

探索本文未使用的GAN中过度拟合的另一种有趣技术是使用L1或L2距离(甚至可能是VGG-19特征距离)进行最近邻搜索,以从训练数据集中获取最相似的图像到给定的生成图像。

GAN特征可视化 GAN Feature Visualization

CNN中的特征可视化如下实现。通过梯度下降训练生成器网络,以生成图像,从而最大程度地激活给定特征。Radford等使用他们的鉴别模型在LSUN卧室数据集中进行测试,并显示以下图像:


有趣的是,这些是鉴别器用来判断图像是真实的还是伪造的功能。

潜在空间插值 Latent Space Interpolation

潜在空间插值是GAN研究中最有趣的主题之一,因为它可以控制生成器。例如,GAN最终可能会被用来设计网站。您希望能够控制设计的特征或在设计之间进行插值。除此轶事外,在Word2Vec中还非常普遍地描述了潜在空间插值,其中向量“King”-“Man” +“Woman” =“Queen”。Radford等探索其生成的图像的插值。


最初错过的关于本文讨论的潜在空间插值的一个有趣的细节是,它们不使用单个点的Z向量。例如,他们不仅获取一个微笑女人的Z向量,然后减去一个中性女人的Z向量,然后添加一个中性男人的Z向量,以获得一个微笑男人的图像。相反,它们采用一系列生成的图像的平均Z向量,这些图像显示了诸如“微笑的女人”之类的外部特征。

感谢您阅读本文!我发现本文对于GAN的研究非常有用。每次回到本文时,都会对本文的细节有所了解。本文是GAN的基础著作之一,强烈建议您将其收藏,特别是如果您对图像生成感兴趣的话。

参考文献 References

  1. Alec Radford, Luke Metz, Soumith Chintala. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks. 2015.
  2. Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, Xi Chen. Improved Techniques for Training GANs. 2016.
最近发表
标签列表