随着AI生成内容的兴起,扩散概率模型成为一种先进生成模型的代表,其背后的技术是由Sohl-Dickstein等人于2015年首次提出的。其中,去噪扩散概率模型(DDPM)的出现,标志着这类模型的爆发,引发了一系列新研究的涌现,应用领域包括语音建模、文本到语音、文本到图像以及多变量时间序列预测等。
扩散模型作为一种生成模型,具有独特而有趣的特性。经过训练的模型能够轻松执行图像修复(inpainting)和零样本降噪(zero-shot denoising)任务。此外,DDPM中使用的变分约束强化了与变分自动编码器(VAE)和神经压缩技术的联系,因此本文将从简单的变分自编码器出发,后续再深入探讨扩散模型,通过联系不同模型之间的关系,提出未来研究方向。
本文结构如下:
基础知识回顾 自编码器 变分自编码器基础知识回顾隐变量(Latent Variable): 是通过模型从观测数据中推断出来的变量。例如,将输入对象送入神经网络编码层得到的向量即为隐变量。
变分法(Variations): 在简述变分之前,应了解泛函的概念。泛函是一种将函数作为输入的函数。以两点间路径长度为例,求解最短路径涉及的函数求导和积分过程,即是泛函的应用。
高斯混合模型(GMM): 是用于表示总体分布中子分布概率模型。通过多个正态分布的叠加逼近任意分布。
条件概率(Conditional Probability)条件概率表示两个事件同时发生的概率。
KL散度(KL divergence)KL散度衡量两个概率分布之间的距离,用于泛函极值求解。
极大似然估计(MLE)极大似然估计寻找使样本点以最大概率发生的参数值。
自编码器(Auto-Encoder, AE)自编码器是一种无监督学习算法,用于数据降维、特征抽取和数据可视化。其特点是使用BP反向传播算法。
PCA与自编码器(PCA to AE)自编码器相比PCA具有更强的学习能力,通过增加网络深度和宽度提升性能。
自编码器的应用(AE applications)自编码器应用于文本检索、以图搜图和预训练等领域。
自编码器的局限性(AE limitations)自编码器生成的图像可能模糊或失真,受限于非线性变换过程。
变分自编码器(VAE)引入原因VAE通过引入噪声,增强模型生成能力,解决自编码器的局限性。
VAE模型架构VAE在传统自编码器基础上,通过添加噪声增强模型性能。
VAE原理与数学推导VAE基于高斯混合模型,通过数学推导解释其原理。
VAE与AE区别VAE与AE在模型架构、生成效果和应用领域存在明显差异。
写在最后本文提供了一个关于自编码器、变分自编码器及其应用的概述,旨在激发读者对深度学习领域的进一步探索。如有学习交流或求职需求,可通过指定方式加入相关群组。已整理成PDF版的读者可联系获取。