一图读懂生成式模型 (Generative Modeling) 的主要流派

介绍了生成式模型的分类和四类主要的 AR+Diffusion 的建模方式。

初稿: 2025/05/04, 更新: 2025/05/13。Gemini 2.5 Pro 辅助撰写

近年来，生成式模型（Generative Modeling）吸引了大家的关注，从文本生成（如 GPT系列）到图像生成（如 DALL·E），再到视频生成（如Sora）和原生多模态（如 GPT-4o），生成式模型正不断突破我们对 AI 能力的想象。它们是如何工作的？背后又有哪些主要的技术流派？

下图简要梳理了当前生成式模型的主要方法和流派，希望能为大家提供一个宏观视角。这张分类图也是在撰写论文《A Survey of Interactive Generative Video》(https://arxiv.org/abs/2504.21853) 时，合作者们讨论总结的成果，欢迎查阅原文以了解更多细节。

核心目标：建模复杂的数据分布

生成式模型的终极目标，是建模真实世界数据的复杂联合分布 (Complex Joint Distribution)。简单来说，就是让模型理解数据的内在模式和结构，从而能够“创造”出与真实数据相似的新数据。

想象一下，我们要生成猫的图片。真实世界中猫的图片千姿百态，它们的颜色、姿势、背景、光照等等构成了极其复杂的数据分布。生成式模型的任务就是学习这个分布，然后从中“采样”出新的、看起来像猫的图片。

然而，直接学习如此复杂的分布极为困难。当前主流的技术路径可以分为两个主要大类：

策略一：分布分解建模 (Distribution Factorization Modeling) - 链式法则的艺术

这种策略的核心思想，是利用概率论中的链式法则，将复杂的高维联合分布 $p(x)$ 分解为一系列条件概率的乘积：$p(x)=p(x1)p(x2∣x1)p(x3∣x1,x2)...$

这种方法的典型代表就是自回归模型 (Autoregressive Models, AR)。

**什么是自回归？**就像我们说话或写作时逐字逐句地进行一样，自回归模型生成数据也是序列化的过程。它根据已经生成的部分，来预测下一个“单元”（例如下一个像素、下一个词元/Token）
- 注：在恺明的课程《6.S978 Deep Generative Models》中提到：“In general, autoregression is a way of modeling joint distribution by a product of conditional distributions.” 这是一个广义定义。若严格按此定义，扩散模型某种意义上也可视为一种特殊的条件分布建模。但在通常语境下，我们区分 AR 和 Diffusion 的一个实用角度是看初始采样来源：AR 模型通常从数据本身的分布中开始采样第一个元素；而 Diffusion 类模型则从一个预设的简单先验分布（如高斯分布）开始采样。
主要类型：
- NTP (Next Token Prediction): 最经典的方式，广泛应用于大型语言模型（例如 GPT 系列）、早期的图像模型（例如 DALL·E 1）、视频生成模型（例如 VideoGPT）以及原生统一的多模态模型（例如 EMU3）
- NSTP (Next Set-of-Tokens Prediction): 一次预测或生成一组词元，常见于图像生成（例如 MaskGIT）
来自MAR论文，(a)和(b)是NTP, (c)是NSTP

来自MaskGIT，MaskGIT的decoding过程
- NSP (Next Scale Prediction): 在不同尺度或分辨率上进行预测，例如图像生成中的VAR
来自VAR，展示了VAR的VQVAE和 NSP的过程
- 补充说明：NTP/NSTP 通常将中间生成的词元直接作为最终输出的一部分；而 VAR的中间预测结果更多是作为后续步骤的条件，不直接构成最终输出。

策略二：分布映射建模 (Distribution Mapping Modeling) - 从简单到复杂的变换

与因子分解不同，该策略试图学习一个映射函数 (Mapping Function) $G$，将一个容易采样的简单分布 $p_Z(z)$（通常是高斯噪声）直接或间接地变换到目标数据的复杂分布 $p_X(x)$ 上，即 $x=G(z)$。

主要分支：
- 直接映射建模 (Direct Mapping Modeling): 学习一个（通常是单步的）直接映射函数。
  - 生成对抗网络 (GAN - Generative Adversarial Networks): 通过生成器 G 和判别器 D 的相互博弈来学习映射。G 努力生成以假乱真的数据，D 则努力区分真实数据与 G 生成的数据。
  - 变分自编码器 (VAE - Variational Autoencoders): 包含一个编码器将数据 $x$ 映射到潜在空间 $z$ ，和一个解码器从 $x$ 重建数据 $\hat{x}$ 。通过优化重建损失和对潜在空间施加先验分布（如高斯分布）约束，解码器部分具备了从先验分布采样 $z$ 并生成 $x$ 的能力。
- 概率路径建模 (Probability Path Modeling): 这类方法不寻求一步到位的映射，而是构建一个连续或离散的演化路径，将样本从简单的初始分布（如噪声）逐渐转化为目标分布。某种程度来说，概率路径建模也是一种条件分布建模，也有分布分解建模的思想，它是 Distribution Factorization Modeling 和 Distribution Mapping Modeling的混合。
  - 扩散模型 (Diffusion Models) 和 流匹配模型 (Flow Matching Models) 。注: Diffusion Model 和Flow Matching Models 可以被统一到一个框架内。我们经常用“Diffusion” 用指代这类基于概率路径的方法，即包含Flow Matching 和Diffusion