介绍了生成式模型的分类和四类主要的 AR+Diffusion 的建模方式。
初稿: 2025/05/04, 更新: 2025/05/13。Gemini 2.5 Pro 辅助撰写
近年来,生成式模型(Generative Modeling)吸引了大家的关注,从文本生成(如 GPT系列)到图像生成(如 DALL·E),再到视频生成(如Sora)和原生多模态(如 GPT-4o),生成式模型正不断突破我们对 AI 能力的想象。它们是如何工作的?背后又有哪些主要的技术流派?
下图简要梳理了当前生成式模型的主要方法和流派,希望能为大家提供一个宏观视角。这张分类图也是在撰写论文《A Survey of Interactive Generative Video》(https://arxiv.org/abs/2504.21853) 时,合作者们讨论总结的成果,欢迎查阅原文以了解更多细节。

核心目标:建模复杂的数据分布
生成式模型的终极目标,是建模真实世界数据的复杂联合分布 (Complex Joint Distribution)。简单来说,就是让模型理解数据的内在模式和结构,从而能够“创造”出与真实数据相似的新数据。
想象一下,我们要生成猫的图片。真实世界中猫的图片千姿百态,它们的颜色、姿势、背景、光照等等构成了极其复杂的数据分布。生成式模型的任务就是学习这个分布,然后从中“采样”出新的、看起来像猫的图片。
然而,直接学习如此复杂的分布极为困难。当前主流的技术路径可以分为两个主要大类:
策略一:分布分解建模 (Distribution Factorization Modeling) - 链式法则的艺术
这种策略的核心思想,是利用概率论中的链式法则,将复杂的高维联合分布 $p(x)$ 分解为一系列条件概率的乘积:$p(x)=p(x1)p(x2∣x1)p(x3∣x1,x2)...$
这种方法的典型代表就是自回归模型 (Autoregressive Models, AR)。
-
**什么是自回归?**就像我们说话或写作时逐字逐句地进行一样,自回归模型生成数据也是序列化的过程。它根据已经生成的部分,来预测下一个“单元”(例如下一个像素、下一个词元/Token)
- 注:在恺明的课程《6.S978 Deep Generative Models》中提到:“In general, autoregression is a way of modeling joint distribution by a product of conditional distributions.” 这是一个广义定义。若严格按此定义,扩散模型某种意义上也可视为一种特殊的条件分布建模。但在通常语境下,我们区分 AR 和 Diffusion 的一个实用角度是看初始采样来源:AR 模型通常从数据本身的分布中开始采样第一个元素;而 Diffusion 类模型则从一个预设的简单先验分布(如高斯分布)开始采样。
-
主要类型:
- NTP (Next Token Prediction): 最经典的方式,广泛应用于大型语言模型(例如 GPT 系列)、早期的图像模型(例如 DALL·E 1)、视频生成模型(例如 VideoGPT)以及原生统一的多模态模型(例如 EMU3)
- NSTP (Next Set-of-Tokens Prediction): 一次预测或生成一组词元,常见于图像生成(例如 MaskGIT)

来自MAR论文,(a)和(b)是NTP, (c)是NSTP

来自MaskGIT,MaskGIT的decoding过程
- NSP (Next Scale Prediction): 在不同尺度或分辨率上进行预测,例如图像生成中的VAR

来自VAR,展示了VAR的VQVAE和 NSP的过程
- 补充说明:NTP/NSTP 通常将中间生成的词元直接作为最终输出的一部分;而 VAR的中间预测结果更多是作为后续步骤的条件,不直接构成最终输出。
策略二:分布映射建模 (Distribution Mapping Modeling) - 从简单到复杂的变换
与因子分解不同,该策略试图学习一个映射函数 (Mapping Function) $G$,将一个容易采样的简单分布 $p_Z(z)$(通常是高斯噪声)直接或间接地变换到目标数据的复杂分布 $p_X(x)$ 上,即 $x=G(z)$。
- 主要分支:
- 直接映射建模 (Direct Mapping Modeling): 学习一个(通常是单步的)直接映射函数。
- 生成对抗网络 (GAN - Generative Adversarial Networks): 通过生成器 G 和判别器 D 的相互博弈来学习映射。G 努力生成以假乱真的数据,D 则努力区分真实数据与 G 生成的数据。
- 变分自编码器 (VAE - Variational Autoencoders): 包含一个编码器将数据 $x$ 映射到潜在空间 $z$ ,和一个解码器从 $x$ 重建数据 $\hat{x}$ 。通过优化重建损失和对潜在空间施加先验分布(如高斯分布)约束,解码器部分具备了从先验分布采样 $z$ 并生成 $x$ 的能力。
- 概率路径建模 (Probability Path Modeling): 这类方法不寻求一步到位的映射,而是构建一个连续或离散的演化路径,将样本从简单的初始分布(如噪声)逐渐转化为目标分布。某种程度来说,概率路径建模也是一种条件分布建模,也有分布分解建模的思想,它是 Distribution Factorization Modeling 和 Distribution Mapping Modeling的混合。
- 扩散模型 (Diffusion Models) 和 流匹配模型 (Flow Matching Models) 。注: Diffusion Model 和Flow Matching Models 可以被统一到一个框架内。我们经常用“Diffusion” 用指代这类基于概率路径的方法,即包含Flow Matching 和Diffusion