在温哥华格兰维尔岛(Granville Island)的邮局外面,我见到了身着霓虹珊瑚色运动鞋和蓝色始祖鸟夹克的加里·马库斯(Gary Marcus)。
我去那附近办点事,而马库斯自 2018 年以来一直住在这座城市,之前他在纽约生活了 20 年。
当我们一起在格兰维尔岛和附近的基西拉诺海滩散步时,他告诉我:“我觉得这里就是天堂。”我们一边散步,一边讨论人工智能发展的现状。
“我对此感到沮丧。”他告诉我,“当我进入这个领域的时候,我们并不是要让财富大规模地从艺术家那里流向大公司。”
马库斯是纽约大学荣誉退休教授,也是一位著名的人工智能研究人员和认知科学家。
他将自己定位为深度学习和人工智能的批评者,直言不讳是他的风格。但这种风格似乎与他的背景并不协调。
在 X(原推特)平台上,他会与杨立昆(Yann LeCun)和杰弗瑞·辛顿(Geoffrey Hinton)等人工智能领域的重量级人物激烈争执。
或许你因此见过他的名字。“所有尝试与我的社交努力都失败了。”他开玩笑说。平日里,马库斯经常这样边散步边发推特。
刚刚过去的一周,人工智能领域又出现了几条重大新闻。谷歌DeepMind 强大的新一代人工智能模型 Gemini 正式(作为消费级产品)上线。该模型是多模态的,具备强大的视频、文本和图像处理能力。
另一方面,OpenAI 发布了一个引爆人工智能领域的新视频生成模型,名为 Sora。它可以利用简短的文本描述,并将其转化为长达一分钟的、细节丰富的高清视频。
人工智能视频生成技术已经出现了一段时间,但 Sora 似乎成为了最耀眼的那个(至少目前是这样)。
我在社交媒体上看到了不计其数的视频片段,都是网友用该软件生成的,效果令人惊叹。
OpenAI 声称,其结果表明,扩展像 Sora 这样的视频生成模型“在构建物理世界的通用模拟器方面很有前途”。
(来源:SOPA IMAGES LIMITED/ALAMY LIVE NEWS)但出人意料的是,马库斯对它不以为然。“如果你只看一秒钟(的视频片段),你会觉得它太神奇了。但如果你仔细看看,就会发现(这个人工智能系统)仍然不太懂常识。”他说。
例如,一些视频出现了明显违背物理常识的情况,动物和人会突然出现和消失,还有的物体会向后飞。
马库斯指出,演示视频乍看之下足够以假乱真,但它们中的大多数都有问题。
例如,在一个女人走在街上的片段中,背景中有许多模糊的人,但如果你仔细观察,他们看起来就像是四处漂浮的僵尸。
在大约 28 秒的时候,这个女人的左脚迈出了两步,这在生物学上是不可能的。
所以,当你开始仔细观察视频时,就会发现它们是人工智能生成的,而且往往会发现更多违反物理定律的行为。
当然,这只是 Sora 的最初版本,未来它会进化成什么样子,我们还不知道。
最让马库斯无语的是视频中的物体会突然出现和消失。对于人类而言,只有六个月大的婴儿就已经知道这是不可能在真实世界里发生的。
例如,在有一窝狼崽的视频里,如果你仔细观察,就会发现狼崽是凭空生成的,上一帧还没有,下一帧就突然出现了。
还有一个视频,马库斯不知道里面的人是考古学家还是其他什么人,他们从地里挖出一把椅子,但椅子之后开始悬浮起来,然后其中一个人走到了另一个人后面。
马库斯表示,当镜头展示这一点时,穿着棕褐色衬衫的那个人完全消失了。
我们还看到了很多类似的违反物理定律的情况。另一段视频展示的蚂蚁只有四条腿,大多数正常蚂蚁都有六条腿,看到一只四条腿的蚂蚁很奇怪。
所以有人发帖说,“哇,简直不敢相信他们甚至把腿的运动弄对了”。不,他们没有把腿弄对,甚至连数量都不对。
另外,如果你看完了整个视频,就会看到突然出现一只奇怪的双头蚂蚁。
总而言之,视频里有很多你可能会称之为“小瑕疵”的问题。从认知科学的角度来看,这很重要,因为你想知道,这个东西真的能理解世界吗?
马库斯认为答案是否定的。他认为这背后只是发生了其他事情。但他承认,这些视频看起来很棒,画面质感优秀,拥有丰富而清晰的细节。
对马库斯来说,视频生成是科技公司“剥削性商业模式”的又一个例子。
许多艺术家和作家,甚至是《纽约时报》都起诉了人工智能公司,声称这些公司不分青红皂白地在互联网上抓取数据来训练模型的做法侵犯了他们的知识产权。版权问题是马库斯最关心的问题。
他曾让主流人工智能图像生成工具制作出漫威电影的场景或著名角色,如小黄人,索尼克和《星球大战》的天行者达斯·维德(Darth Vader)。
他已经开始游说,要求对人工智能模型吸收的训练数据制定更明确的规则。
他说:“在不透明的系统中,我们不应该使用未经同意的、受版权保护的材料来制作视频,因为我们无法理解其中发生了什么。这显然是一件不道德的事情,而且不应该是一件合法的事情。”
马库斯经常用 X 来抨击硅谷的权力结构。他说,现在他认为自己是一名活动家。
当我问他动机是什么时,他毫不犹豫地回答道:“掌管人工智能的人并不真正关心你所说的负责任的人工智能,而这可能会对社会造成严重后果。”
2023 年底,他写了一本名为《驯服硅谷》(Taming Silicon Valley)的书,将于 2024 年秋天出版。他在书中讨论了如何监管人工智能,同时呼吁人们立即行动起来。
他说:“我们需要让公众参与到这场斗争中,努力让人工智能公司负责任地行事。”
他说,人们可以通过抵制一些软件,敦促它们做出让步,围绕技术政策来选择政策制定者。
他认为,人们迫切需要行动起来,迅速拿出一套人工智能政策,因为我们正处于一个非常紧迫的窗口期。
只有在这个窗口期内,我们才可以有效地解决人工智能领域的问题。但风险在于,我们可能会犯监管机构对社交媒体公司犯下的同样错误。
他说:“与即将发生的事情相比,我们在社交媒体领域看到的‘前车之鉴’只是一道开胃菜。”
大约 1.2 万步后,我们走回了格兰维尔岛的公共市场。我饿了,所以我们在阳光下吃了点东西,然后就分开了。
当天晚些时候,马库斯发表了一系列关于 Sora 的推文,因为他已经看到了足够多的证据:“Sora 很神奇,但它更像变形和剪接,而不能带给我们通用人工智能所需的物理推理能力。”
他写道,“随着越来越多的人能够使用它,我们将看到更多的系统性问题。许多问题将难以补救。”
未来,当问题出现时,不要说他没有警告过。
支持:Ren
参考资料:
https://www.cbc.ca/radio/frontburner/ai-video-s-groundbreaking-controversial-leap-forward-transcript-1.7119870
运营/排版:何晨龙
发布于:北京
相关推荐
独家专访Gary Marcus:Sora很神奇,但很多视频违背物理定律
Gary Marcus公开喊话Hinton、马斯克:深度学习就是撞墙了,我赌十万美金
OpenAI“单手解魔方”被公开质疑,Gary Marcus称七大问题涉嫌误导
Sora发布后,Pika创始人独家回应钛媒体:很振奋,我们将直接冲
Sora还没来,概念已席卷A股
终于,Yann LeCun发文驳斥Gary Marcus:别把一时的困难当撞墙
周鸿祎称Sora生成视频堪比CG:未做3D建模 只需文字就可逼真描绘
为什么说Sora是世界的模拟器?
a16z干货:Sora统治之下,AI生成视频还有哪些机会?
周鸿祎:不要把Sora看成鲨鱼,把它看成海洋
网址: 独家专访Gary Marcus:Sora很神奇,但很多视频违背物理定律 http://m.xishuta.com/newsview109208.html