当OpenAI的奥特曼还在到处买显卡、买算力,来支撑他的Sora 2视频生成模型。
李飞飞的实验室The World Labs,用一张显卡就能运行一个世界。他们今天发布了一项名为RTFM(Real-Time Frame Model)的新技术,一个全新的实时世界生成模型。
和九月中旬发布的图生世界Marble不同,RTFM不仅是用一张照片,生成一个我们可以自由漫步、探索的3D世界。最重要的是,它被设计为可以在单块H100 GPU上高效运行,并且实时生成。
目前,RTFM已经作为研究预览版正式发布,并提供了Demo可以亲自去试试。
RTFM Demo链接:https://rtfm.worldlabs.ai/
意外地发现,这个Demo的名字叫做FRAMEBOY,结合这个网页布局,我很快想到了年代久远的Game Boy游戏机。
这样一个拥有逼真的光影、反射和阴影的世界,并且这一切还在我们眼前实时发生,在某种程度上,何尝不是另一种玩游戏。
不止于生成,更在于实时互动
RTFM的核心能力,就是能实时生成可供用户交互的视频。它可以从一张静态图片开始,实时渲染出一个可以自由探索的3D场景。
与许多世界模型不同,RTFM能够学习并渲染出,极其复杂和真实的视觉效果。无论是光滑大理石地面的倒影、物体在阳光下的阴影,还是透过玻璃看到的景象,RTFM都能准确地模拟。
RTFM依靠的不是传统的图形学编程,而是让模型通过对海量视频数据的端到端学习,不断进化出来的。
支撑这项能力的,是设计RTFM背后围绕的三项核心原则。
效率(Efficiency),要想把未来拉到眼前,世界模型的计算需求是最大的阻碍。
无论是像Sora这样的AI生成视频,还是Google尚未正式公开上线的Genie 3,都意味着巨大的计算挑战。
有相关的研究提到,要实时生成4K 60fps的交互视频流,AI模型每秒需要处理的tokens数量约等于一本《哈利·波特》的文字量。
而如果要在超过一小时的交互中,保持这些生成内容的持续性,需要处理的上下文,将超过100M个token。这对于当下的计算基础设施而言,既不现实,也难以负担。
李飞飞团队的目标是「在今天硬件上,运行的明天模型,并提供最高保真度的预览。」
他们通过对架构、模型蒸馏和推理过程的极致优化,以及整个系统的重新设计。RTFM成功地实现了,仅使用单个H100 GPU,就可以交互式帧率进行推理,实时生成。
可扩展性(Scalability),从视频模型,能直接到世界模型
传统的3D引擎,用的是三角网格、高斯点云、体素渲染等显式结构,完全依赖于一些复杂的计算机图形学知识。每个物体都要建模、上材质、打光、烘焙阴影。这和我们之前介绍的混元3D世界,所采用的方法类似,它们主打的是实现3D全管道的生成。
World Lab选择的路和混元不同,RTFM不会构建任何显式的3D模型。它使用了类似Sora的「自回归扩散Transformer」,直接从视频帧序列中学习世界规律。
举个例子,模型不再需要知道「这是一堵墙」或「那是一盏灯」,它只通过成千上万段视频的学习,学会了什么是「空间感」,学会从输入的2D图像序列中,预测出下一个新的视角画面。
和生成3D资产的路线不同,RTFM能够更好地利用不断增长的数据和算力,从而实现无限扩展。
持久性(Persistence),让世界模型像nano banana一样保持一致。
大部分的视频生成模型有一个天生缺陷,就是它们没有记忆。即便现在Sora一次性,能生成25秒的震撼画面,但视频生成结束后,世界就结束了,并不能提供持续的交互。
而如果要记住所有场景,计算负担势必又会随着探索的深入而无限累积。
RTFM试图解决的,就是让生成的世界具备持续存在的能力。它引入了一个叫「spatial memory(空间记忆)」的机制。它为生成的每一帧画面,都赋予了在3D空间中的精确「姿态」(位置和方向)。
在生成新画面时,模型会采用一种「上下文杂耍」(context juggling)的技术,只调用新画面附近位置的帧作为参考,而不是全局内容。
这使得RTFM能够做到,让我们反复进入这个世界,离开再回来,而不会增加计算负担。
目前,RTFM的Demo体验时间只有3分钟,3分钟后,它还是会不记得这个世界。我在那个Demo里面拖动左右两个摇杆,玩了很久,想到了李飞飞之前说,空间智能才应该是AGI的下一个方向。
未来是否真的有机会,像头号玩家一样,让现实世界和虚拟世界之间,产生明确的联系,光看现在的世界模型,要加载的内容还有太多。
毕竟,即便单个H100 GPU,售价也大约在25000美元以上。但是当算力的价格下降,当算法再快一点;我们或许能看到,真正意义上的世界模型「大更新」,是现实,被完整生成的那一天。
欢迎加入APPSO AI社群,一起畅聊AI产品,获取#AI有用功,解锁更多AI新知
我们正在招募伙伴
简历投递邮箱hr@ifanr.com
✉️邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
相关推荐
李飞飞世界模型大更新, 实时生成3D 世界,只要一块GPU
李飞飞:AI的下一个大脑是理解3D空间的世界模型
AI教母李飞飞揭秘世界模型
李飞飞的世界模型,大厂在反向操作?
看见的世界,看不见的李飞飞
“AI教母”李飞飞:世界是三维的,我们需要尊重这一事实
“世界模型”能改变世界吗?
李飞飞的答案:大模型之后,Agent 向何处去?
李飞飞:高校学生应追逐AI“北极星”问题
李飞飞的答案:大模型之后,Agent向何处去?
网址: 李飞飞世界模型大更新, 实时生成3D 世界,只要一块GPU http://m.xishuta.com/newsview143250.html