介绍了生成式模型的分类和四类主要的 AR+Diffusion 的建模方式。

初稿: 2025/05/04, 更新: 2025/05/13。Gemini 2.5 Pro 辅助撰写

近年来,生成式模型(Generative Modeling)吸引了大家的关注,从文本生成(如 GPT系列)到图像生成(如 DALL·E),再到视频生成(如Sora)和原生多模态(如 GPT-4o),生成式模型正不断突破我们对 AI 能力的想象。它们是如何工作的?背后又有哪些主要的技术流派?

下图简要梳理了当前生成式模型的主要方法和流派,希望能为大家提供一个宏观视角。这张分类图也是在撰写论文《A Survey of Interactive Generative Video》(https://arxiv.org/abs/2504.21853) 时,合作者们讨论总结的成果,欢迎查阅原文以了解更多细节。

Snipaste_2025-05-13_00-16-44.jpg

核心目标:建模复杂的数据分布

生成式模型的终极目标,是建模真实世界数据的复杂联合分布 (Complex Joint Distribution)。简单来说,就是让模型理解数据的内在模式和结构,从而能够“创造”出与真实数据相似的新数据。

想象一下,我们要生成猫的图片。真实世界中猫的图片千姿百态,它们的颜色、姿势、背景、光照等等构成了极其复杂的数据分布。生成式模型的任务就是学习这个分布,然后从中“采样”出新的、看起来像猫的图片。

然而,直接学习如此复杂的分布极为困难。当前主流的技术路径可以分为两个主要大类:

策略一:分布分解建模 (Distribution Factorization Modeling) - 链式法则的艺术

这种策略的核心思想,是利用概率论中的链式法则,将复杂的高维联合分布 $p(x)$ 分解为一系列条件概率的乘积:$p(x)=p(x1)p(x2∣x1)p(x3∣x1,x2)...$

这种方法的典型代表就是自回归模型 (Autoregressive Models, AR)

策略二:分布映射建模 (Distribution Mapping Modeling) - 从简单到复杂的变换

与因子分解不同,该策略试图学习一个映射函数 (Mapping Function) $G$,将一个容易采样的简单分布 $p_Z(z)$(通常是高斯噪声)直接或间接地变换到目标数据的复杂分布 $p_X(x)$ 上,即 $x=G(z)$。