首页 > 科技快讯 > 李飞飞世界模型大更新，实时生成3D 世界，只要一块GPU

李飞飞世界模型大更新，实时生成3D 世界，只要一块GPU

晰数塔互联网快讯
2025-10-17 12:36

当OpenAI的奥特曼还在到处买显卡、买算力，来支撑他的Sora 2视频生成模型。

李飞飞的实验室The World Labs，用一张显卡就能运行一个世界。他们今天发布了一项名为RTFM(Real-Time Frame Model)的新技术，一个全新的实时世界生成模型。

和九月中旬发布的图生世界Marble不同，RTFM不仅是用一张照片，生成一个我们可以自由漫步、探索的3D世界。最重要的是，它被设计为可以在单块H100 GPU上高效运行，并且实时生成。

目前，RTFM已经作为研究预览版正式发布，并提供了Demo可以亲自去试试。

RTFM Demo链接：https://rtfm.worldlabs.ai/

意外地发现，这个Demo的名字叫做FRAMEBOY，结合这个网页布局，我很快想到了年代久远的Game Boy游戏机。

这样一个拥有逼真的光影、反射和阴影的世界，并且这一切还在我们眼前实时发生，在某种程度上，何尝不是另一种玩游戏。

不止于生成，更在于实时互动

RTFM的核心能力，就是能实时生成可供用户交互的视频。它可以从一张静态图片开始，实时渲染出一个可以自由探索的3D场景。

与许多世界模型不同，RTFM能够学习并渲染出，极其复杂和真实的视觉效果。无论是光滑大理石地面的倒影、物体在阳光下的阴影，还是透过玻璃看到的景象，RTFM都能准确地模拟。

RTFM依靠的不是传统的图形学编程，而是让模型通过对海量视频数据的端到端学习，不断进化出来的。

支撑这项能力的，是设计RTFM背后围绕的三项核心原则。

效率(Efficiency)，要想把未来拉到眼前，世界模型的计算需求是最大的阻碍。

无论是像Sora这样的AI生成视频，还是Google尚未正式公开上线的Genie 3，都意味着巨大的计算挑战。

有相关的研究提到，要实时生成4K 60fps的交互视频流，AI模型每秒需要处理的tokens数量约等于一本《哈利·波特》的文字量。

而如果要在超过一小时的交互中，保持这些生成内容的持续性，需要处理的上下文，将超过100M个token。这对于当下的计算基础设施而言，既不现实，也难以负担。

李飞飞团队的目标是「在今天硬件上，运行的明天模型，并提供最高保真度的预览。」

他们通过对架构、模型蒸馏和推理过程的极致优化，以及整个系统的重新设计。RTFM成功地实现了，仅使用单个H100 GPU，就可以交互式帧率进行推理，实时生成。

可扩展性(Scalability)，从视频模型，能直接到世界模型

传统的3D引擎，用的是三角网格、高斯点云、体素渲染等显式结构，完全依赖于一些复杂的计算机图形学知识。每个物体都要建模、上材质、打光、烘焙阴影。这和我们之前介绍的混元3D世界，所采用的方法类似，它们主打的是实现3D全管道的生成。

World Lab选择的路和混元不同，RTFM不会构建任何显式的3D模型。它使用了类似Sora的「自回归扩散Transformer」，直接从视频帧序列中学习世界规律。

举个例子，模型不再需要知道「这是一堵墙」或「那是一盏灯」，它只通过成千上万段视频的学习，学会了什么是「空间感」，学会从输入的2D图像序列中，预测出下一个新的视角画面。

和生成3D资产的路线不同，RTFM能够更好地利用不断增长的数据和算力，从而实现无限扩展。

持久性(Persistence)，让世界模型像nano banana一样保持一致。

大部分的视频生成模型有一个天生缺陷，就是它们没有记忆。即便现在Sora一次性，能生成25秒的震撼画面，但视频生成结束后，世界就结束了，并不能提供持续的交互。

而如果要记住所有场景，计算负担势必又会随着探索的深入而无限累积。

RTFM试图解决的，就是让生成的世界具备持续存在的能力。它引入了一个叫「spatial memory（空间记忆）」的机制。它为生成的每一帧画面，都赋予了在3D空间中的精确「姿态」（位置和方向）。

在生成新画面时，模型会采用一种「上下文杂耍」(context juggling)的技术，只调用新画面附近位置的帧作为参考，而不是全局内容。

这使得RTFM能够做到，让我们反复进入这个世界，离开再回来，而不会增加计算负担。

目前，RTFM的Demo体验时间只有3分钟，3分钟后，它还是会不记得这个世界。我在那个Demo里面拖动左右两个摇杆，玩了很久，想到了李飞飞之前说，空间智能才应该是AGI的下一个方向。

未来是否真的有机会，像头号玩家一样，让现实世界和虚拟世界之间，产生明确的联系，光看现在的世界模型，要加载的内容还有太多。

毕竟，即便单个H100 GPU，售价也大约在25000美元以上。但是当算力的价格下降，当算法再快一点；我们或许能看到，真正意义上的世界模型「大更新」，是现实，被完整生成的那一天。

欢迎加入APPSO AI社群，一起畅聊AI产品，获取#AI有用功，解锁更多AI新知

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️邮件标题「姓名+岗位名称」（请随简历附上项目/作品或相关链接）

他们为何急于注销携程？

存储扩产 “卡壳”了？

热点科技快讯

人类唯一的出路: 变成人工智能（五）

本文来自微信公众号：Wait But Why（ID：wbwtimurban），...

报告：抖音海外版下载量突破10亿大关挑战Facebook

新浪科技讯北京时间2月28日早间消息，据美国财经媒体CNBC援...

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，...

人类唯一的出路：变成人工智能（三）

本文来自微信公众号：Wait But Why（ID：wbwtimurban），...

热门点击排行

问界商标转让释放信号：赛力斯与华为合作持续深入

报告：抖音海外版下载量突破10亿大关挑战Facebook

科技快讯分类导航

互联网创业

人工智能

大数据分析

行业热点

李飞飞世界模型大更新， 实时生成3D 世界，只要一块GPU

他们为何急于注销携程？

存储扩产 “卡壳”了？

人类唯一的出路: 变成人工智能（五）

报告：抖音海外版下载量突破10亿大关 挑战Facebook

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

李飞飞世界模型大更新，实时生成3D 世界，只要一块GPU

报告：抖音海外版下载量突破10亿大关挑战Facebook