AI范式大转折：当大语言模型学会了「预测物理世界」，我们离AGI还有多远？

英伟达科学家Jim Fan提出第二代AI预训练范式：从「预测下一个词」到「预测下一个物理状态」。这个世界模型将视觉置于首位，让AI像可学习的物理模拟器一样理解物理世界。这是AI从语言象牙塔走向真实世界的关键一步，也为AGI的实现提供了新的可能路径。

凌晨刷到一条重磅新闻，英伟达高级研究科学家Jim Fan（范麟熙）发布了《第二代预训练范式》的文章，瞬间让我睡意全无。

作为一个在这个行业摸爬滚打几年的技术博主，我对「范式」这个词一直很敏感。回顾这几年的AI发展历程，从Transformer架构到GPT系列，从ChatGPT爆火到多模态大模型，每一次范式转变都伴随着技术的飞跃式进步。而今天，我们似乎又站在了一个新的转折点上。

从「预测下一个词」到「预测下一个物理状态」

Jim Fan在文章中提出了一个极其犀利但也让人不得不思考的观点：目前以大语言模型（LLM）为代表的AI，其核心预训练范式是「对下一个词的预测」。这第一代范式虽然在自然语言处理领域取得了前所未有的成功，但当这些模型试图理解并与物理世界交互时，暴露出了明显的局限性。

说得直白点，ChatGPT可以跟你聊量子力学，可以帮你写代码，甚至可以模拟对话时的情感变化，但它对物理世界的「理解」，本质上还是基于语言的统计规律，而不是真实的物理规律。让一个语言模型去控制一个机器人倒咖啡，它可能会在对话中描述得很完美，但在实际操作中却可能会把杯子摔得稀碎。

Jim Fan提出的第二代范式是「世界建模」——即在特定动作约束下，预测下一个或一段时间内合理的物理世界状态。简单来说，就是让AI像物理学家一样思考，而不是像一个只会背书的学生。

这是一个非常有趣的视角。传统的大语言模型主要关注语言层面，而世界模型则「从根本上将视觉置于首位」。

为什么是视觉？因为视觉是人类感知物理世界最主要的通道。我们看到一个杯子掉落，大脑会自动预测它会以什么速度下落，落地后会如何破碎——这不是语言告诉我们的，而是我们从无数次观察中总结出的物理规律。

Jim Fan提到的「视频世界模型」，本质上是一个「可学习的物理模拟器和渲染引擎」。它不仅能够理解当前的视觉场景，还能预测在不同动作干预下，未来的世界会如何演化。更重要的是，它还能理解「反事实」——就是想象「如果我做了不同的选择，结果会如何」。

这种能力对于智能机器人、自动驾驶、游戏AI等领域来说，意义不言而喻。

作为一名技术人，我不禁开始思考：如果要实现这个第二代范式，需要什么样的技术支撑？

首先，数据层面肯定不能再局限于文本了。海量的视频数据、传感器数据、物理仿真数据将成为新的「燃料」。这也是为什么特斯拉的FSD、英伟达的Omniverse、以及各种机器人仿真平台越来越受关注的原因。

其次，模型架构也需要革新。目前的Transformer架构虽然强大，但在处理时空连续的物理状态时，是否仍然是最优选择？图神经网络、神经辐射场（NeRF）、扩散模型等技术可能会发挥更大作用。

再者，训练目标也会发生根本性变化。从「语言建模」到「世界建模」，意味着我们的损失函数、评估指标都需要重新设计。这不仅仅是技术问题，更是认知问题——我们到底希望AI「学会」什么？

每次谈到范式转变，总会有人问：这是不是通往AGI（通用人工智能）的必经之路？

说实话，我从不轻易预测AGI的时间表。历史告诉我们，技术的发展往往是非线性的，一个瓶颈可能卡住整个领域几十年，而一个突破又可能在几个月内改变一切。

但有一点是肯定的：AI要想真正「理解」这个世界，仅仅学会人类的语言是不够的。它需要学会「看」，学会「听」，学会「感知」，最终学会像人类一样，在物理世界中探索、学习和成长。

从「预测下一个词」到「预测下一个物理状态」，这个转变看似简单，实际上可能是AI从「象牙塔」走向「真实世界」的关键一步。

作为一名从业者和观察者，我既兴奋又谨慎。兴奋的是，AI技术的发展从未停下脚步，每天都有新的突破和思考；谨慎的是，每一个新范式都需要时间来验证， hype（炒作）和现实之间往往存在不小的gap。

但无论如何，Jim Fan提出的这个「第二代预训练范式」，至少为我们提供了一个新的思考方向——也许，下一代AI的突破，不在于把模型做得更大、数据堆得更多，而在于我们是否能够找到一种更接近「真实智能」的学习方式。

如果你也对这个话题感兴趣，欢迎在评论区交流。AI的世界变化太快，我们需要经常停下来，思考一下这些变化背后的本质。

（完）