前言

国庆假期期间整理了视频世界模型的内容,也抽空读了《A Brief History of Intelligence,智能简史》;当前也在做一些关于Video World Model的研究,所以学习并整理了相关内容。

251005Introduction2VideoWorldModel_页面_02.jpg

先用两句名言来概括世界模型,一句话是来自心理学家Kenneth Craik 1943在《解释的本质》中说的话:The main function of the mind is to be a model of the world or a part of it —— 心智的主要功能,是成为世界或其一部分的模型。这句话是“心智模型(Mental Model)”理论的基石,也可以说是当前AI中讨论“世界模型”的思想源头。

另一句话是来自物理学家Richard Feynman,据说是在他1988年去世后,人们在他黑板上发现的:What I cannot create, I do not understand. —— 我若无法创造,便不能理解。这句话被生成式模型广泛地引用。

选择他们,是因为他们分别代表了后面要介绍的两大类世界模型——表征世界模型(Representation World Model)和生成世界模型(Generative World Model)。

定义

首先,什么是世界模型?虽然当前大家讨论得比较多,相关工作最近也如雨后春笋般地出来,但直到现在仍旧没有一个清晰且被大家广为接受的定义。之前大家讨论比较多的是Yann LeCun 24年在推特上的帖子。(https://x.com/ylecun/status/1759933365241921817

image.png

简化地理解,可以如下图所示。当给定现在的状态S(t)和动作A(t),预测下一个状态S’(t+1)。通常来说我们也会从外部世界接受输入或者观察O(t),来更新内部状态。

预测的状态可以是抽象的表征,类比我们的大脑想象未来。或者是具象的表征,比如像素pixels,就像视频模型预测未来合理的新的视频帧一样。

这是一个宽泛的定义。

251005Introduction2VideoWorldModel_页面_03.jpg

分类

从最终的目的出发(也可以是状态的不同表征方式),我们可以把世界模型划分为两大类,一大类是表征世界模型(Representation World Model),一大类是生成世界模型(Generative World Model)。当然,这是众多分类中的一种区分方法。

表征世界模型包含三类:1)生物大脑中的预测,比如我们人类和动物的心智模型(Mental Model);2)视觉为中心的潜在空间预测,比如V-JEPA/DINO-World;3)语言为中心的潜在空间预测,比如LLM,当然LLM是否是世界模型,最近也有很多争论,后文会简要说明。

生成世界模型包含两类 1)基于规则的模拟,比如游戏引擎,CG学科以及显式3D中更多研究的是这类;2)数据驱动的生成,比如视频生成模型。其他可能还有细分类,但大家主要关心的就是这两大类。

特别要说明的是,这个分类是修改自Xun Huang的blog:https://www.xunhuang.me/blogs/world_model.html。推荐大家也读这篇blog,有很好的内容。

251005Introduction2VideoWorldModel_页面_04.jpg

先简单介绍下表征世界模型,它的目的是理解并预测世界的抽象原则,并不需要去生成逼真的像素。它的关键词是理解和预测,以及抽象原则。