首页 > 科技快讯 > Sora冲击波

Sora冲击波

晰数塔互联网快讯
2024-02-23 18:20

OpenAI发布Sora的当天，绿洲资本董事总经理胡哲人正在老家陪家人过春节假期。看到新闻之后，他第一时间到OpenAI官网查看了Sora的资料。“看得越多，感受到的冲击和震撼就越大。”

过去一年，胡哲人几乎把AIGC领域文生图、文生视频的项目看了个遍，对Runway、Pika等海外公司的动态盯得也比较紧。但看到Sora的视频演示片段，他还是有一种完全意想不到的感觉。

很多AI投资人的反应和他类似。在ChatGPT出现之后，他们就一直在讨论文生视频的技术以及商用价值。但按他们的评估，距离技术成熟达到商用水平至少需要两年，没人预料到进展这么快。

“视频demo会不会是假的？”

包括胡哲人在内的多位投资人看完Sora发布的新闻之后，都产生了类似的怀疑。

理由是OpenAI公司前段时间遭遇了创始人被驱逐等诸多风波，现在为了抬高估值继续融资，它急需放出一个吸引眼球的东西。

胡哲人的怀疑则来自于OpenAI并没有把Sora开放，绝大部分人都无法使用，只能看他们放出的演示。作为每年在国内看大量项目的投资人，直觉告诉他，这个东西没有像ChatGPT一样成为一个人人可用的产品，只能说明它还不成熟。

他立刻和自己在上海交大的直系师弟进行了沟通，对方是非常知名的人工智能科学家。经过双方交流，再结合OpenAI官网产品信息介绍和技术报告，胡哲人基本可以确认OpenAI的Sora不是忽悠。

他仍然想得到更确切的信息，最终辗转找到了在美国的朋友得到了Sora的内测机会。“我现在比较确认Sora是有真材实料的，而不是一个只为了宣传的纯市场行为。”

一、怎么会这么快？

在Google发布Gemini 1.5的当天，OpenAI放出了Sora，彻底打压了前者的热度。

在正式发布之后，OpenAI相关团队成员便不断在社交平台X上放出Sora的演示。它能根据用户的文字提示，生成一段从细节精度、多样性到对物理规律的理解上都令人惊叹的视频。

这些内容被集合推送至OpenAI的TikTok账号上，短短5天内便获得了51.3万次赞，粉丝数也涨至10.6万。

除了演示视频，OpenAI还放出了两份文件，一份是上线声明，一份是技术报告。不过，自去年多模态大模型GPT-4问世之后，OpenAI官方释出的报告愈发精简，不再把细节公之于众。

比如这次就只字未提与模型架构、数据规模、训练成本等相关的重点议题。外界只能结合报告，并通过已有的视频做各种技术推演。

在深入这一领域的研究者看来，Sora在关键指标上碾压了目前市面上最好的文生视频产品们。

制图：何苗

研究员Li Jun Yu目前在参与Google的VideoPoet项目，它是Google唯一有望和Sora形成竞争的产品。他在播客节目OnBoard!上表示，VideoPoet在生成视频时长和分辨率这两点都不及Sora， “我们的时长在2秒到5秒之间，很难一下子做到60秒。”

这是极大的差距。一个视频从几秒到一分钟，不是单纯时间长度的升级，而是数据量、数据复杂度以及构建视频空间连贯性、一致性这些信息的指数级增加。

目前，业界普遍猜测Sora的成功延续了OpenAI的Scaling law法则，即通过海量的数据，大量的算力，再加上大参数模型，最终“大力出奇迹”。

出门问问创始人李志飞认为，Sora很可能是训练时将OpenAI的大语言模型LLM作为起点，然后再加入视频的模态继续训练。“Sora团队只有13人，肯定是大规模复用了大语言模型的东西。”云启资本合伙人陈昱表示，其在2021年底天使轮投资了多模态基础模型公司MiniMax。

OpenAI似乎短期内不会向大众开放Sora。除了在社交平台上与CEO Sam Altman互动，外界并不能直接参与到Sora内测中去。OpenAI自己解释称，技术仍存在一些缺陷，包括一些空间问题。

不过，这并不妨碍它成为现在世界上最强的文生视频产品。OpenAI的技术报告也在标题上赫然指出，Sora这种视频生成模型是“世界的模拟器”。

二、“是不是又要换方向了？”

同样经历了Sora带来的震撼之后，一批应用层AI创业者开始坐不住了。

“是不是又要换方向了？”一位文生视频公司的创始人表达了他的挫败感。

目前，国内有100多家专门做AI文生图和AI文生视频的公司。去年下半年，Runway一些源代码释出，国内还出现了一批专门使用Runway做文生视频的公司。

因为ChatGPT的走红带火了整个AIGC赛道，投资机构也非常倾向于投资文生图和文生视频类公司，因为这类公司的产品和服务能够很快出来，做出来的产品也比较酷炫。

制图：何苗

“就像炒股，文生视频是非常火爆的题材，去年下半年新入场的初创算是追到了高点，没想到突然又出来Sora，可能有一批你听都没有听过的公司直接就要消失了。”波形智能首席产品官万磊表示。

万磊太熟悉这种感觉了，从去年年初创业以来，他看到了一批又一批AI创业公司因为GPT版本的升级迭代而死掉。

他自己也是典型案例：最开始，万磊做了一个AI英语口语培训应用，主打的是用户可以选择不同性格的英语老师来对话练习，分析自己的语法问题。当时这是一个非常新鲜的创意，几乎没有人能模仿。但当GPT-3.5出来之后，大批竞争对手涌现，OpenAI的升级让训练难度大幅降低。而GPT-4发布之后，这个产品彻底丧失了竞争力，用户可以直接和GPT语音对话，人物角色训练只需要短短几句话就能完成。

同样，去年上半年还涌现一批AI辅助视频创作的公司，但并不像Sora这么智能，还需要素材库的辅助。在嘉程资本创始合伙人李黎看来，Sora把视频素材库类的公司全部都颠覆掉了，这个方向的公司，她所在的机构也不会再投。

但经历了去年一波又一波的技术迭代之后，很多AI创业者和投资人对新技术带来的创业公司倒闭潮已见怪不怪。在他们看来，AI创业就是在这种技术爆炸过程中摩擦成长的。

“Sora的出现对国内的AI创业者也不是坏事。如果你对自己的创业项目还有期待的话，看到Sora之后就可以立刻停掉换方向了。”一位投资人表示，“这其实是救了很多公司，尤其是一些排位比较靠后的AI视频类公司。”

三、“融不到10亿美金，可以洗洗睡了”

在Sora发布之后，国内的基础大模型公司开始了新一轮公关战。

月之暗面率先开战，于2月19日宣布完成了最新一轮10亿美元融资。而另一家公司，在还没有完成新一轮10亿美元融资之际，已经先向媒体放风公布了即将完成融资的消息。

如果说应用层公司对Sora的反应是悲喜交加，那国内做基础大模型的公司更像是遭遇了一次生死存亡的警告。

Sora的出现再次验证了大数据大算力的“暴力美学”，这会逼迫追赶者继续去堆算力，但堆算力就意味着要烧更多的钱。“基础大模型的创业公司，如果融不到10亿美金，可以暂时洗洗睡了。”陈昱表示。

这是一场持久战，10亿美金只是挤上牌桌的资格。要训练一个等效于GPT-4的模型需要5000~10000张H系列的GPU卡，而每张卡的价格高达3万美元，再加上其他配套设备成本，投入可达数亿美元。而这还不包括推理需要的算力和人力成本，未来的模型升级所花费的资金还要上一个数量级。

业界普遍认为，在国内众多基础大模型创业公司中，留下的不会超过5家。当下正是各家公司打融资心理战的时候，多一家公司公布融资信息，就意味着又有几家将被挤下牌桌，需要尽早放弃基础大模型的研发。

制图：何苗

除了创业公司，互联网大厂的情况也并不乐观。

在Sora发布之后，大厂中只有字节跳动公布正在研发一款名为Boximator的创新性视频生成模型。但字节跳动官方给出的回应称：Boximator是视频生成领域控制对象运动的技术方法研究项目，目前还无法作为完善的产品落地，距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

“这些互联网大厂内部肯定在做，也一定有还没放出来的。但我相信，这些大厂没放出来，只能是因为效果还不尽如人意。”一位行业人士表示。

而在另一位多模态大模型公司开发者看来，在用户端爆火过的模特换装和科目三舞蹈，根本不是真正意义上的文生视频。模特换装是通过改描述词，修改视频元素得成。而科目三舞蹈只是把模版视频里的动作骨骼提取出来，再加到用户上传的自己那张照片上，只能算是动作提取。

“基础大模型核心还是要靠人才。”一位初创AI公司创始人表示。他在一家头部互联网大公司任职多年，熟知大厂内部的情况。他表示，一些大厂内的创业激情已经很少了，组织关系非常固化，年轻人想提一个意见很难。“而大模型真正需要的是年轻人拼了命去干，才能干成的。”

事实上，新一轮抢人战也在打响。最新消息显示，资深人工智能专家，Google VideoPoet项目研究负责人蒋路被挖去了TikTok，这体现出字节不想置身事外的态度。多位字节内部人士告诉记者，去年6月字节内部决定不投资任何大模型公司，把所有精力都专注在自建模型上，但此后其全盘AI工作进展一直不顺。

人才会是算力之外的另一卡点，也是新的变数。昆仑万维董事长兼CEO方汉日前称，目前看，国内大模型公司最稀缺的是核心算法人才，但乐观的是，供需情况会迅速得到缓解。

四、“还是先追上GPT-4吧”

既然Sora生成视频的能力被公认是一项可用的强力资产，那国内有什么方法可以迎头赶上？

“我们现在根本还扯不到多模态的事情上去。”蚂蚁集团一位技术专家告诉记者，Sora问世几天来，他们内部也很焦虑。

“都还不知道接下来要怎么办”。他称。相比阿里战投在大模型领域风光无限，蚂蚁在战投方面安静如斯，其负责多模态的技术主管，日前也跳槽到了一家AI初创公司。

蚂蚁的困境也折射出大公司对于视频生成模型的含混态度。目前在一众头部大模型初创中，只有智谱在文生视频方面有所布局。大厂方面，字节、腾讯、百度披露了视频生成相关工作（UniVG、VideoCrafter2等），但水花不大。

事实上，有没有视频生成模型也许不那么重要。“ChatGPT之前大家也都有聊天机器人啊……关键是能不能到达那个水准。”某大厂模型业务负责人有些无奈，据其透露，这家大厂暂不打算开展文生视频方面的工作。

初创方面则是另一番局面。去年下半年，国内AIGC领域融资向文生图与视频方向靠拢，一批外界很少听闻的公司悄然成立之后又迅速走向消亡。

文生视频领域剩下的几家佼佼者，包括清华大学计算机系教授朱军的生数科技，原字节跳动视觉技术负责人王长虎创办的爱诗科技，以及前京东副总裁梅涛创办的HiDream。但目前这几家的产品和 Sora 对比，已被全面碾压。

前亚马逊首席科学家，著名深度学习专家李沐建议业界过一阵再来谈Sora，他认同大量媒体的评价，即Sora的工作有点像视频生成界GPT-2到GPT-3的时刻，模型本身跟前作变化不大，但使用了几百倍算力，“目前报告关键问题有所缺失，相信学界和开源界会很快跟进。”

现下，国内基础模型层公司的当务之急并不是努力赶上Sora，而是努力赶上GPT-4。

去年年中，有创业者专门详细测试对比了所有国内主流大模型产品与GPT-4，得到的结论是“有很大进步空间”。科大讯飞董事长刘庆峰则公开表示，国产大模型在复杂知识推理、小样本快速学习、超长文本处理、跨模态统一理解上跟GPT-4还有差距。

“GPT-4放前面，Sora放后面，国内还是先把GPT-4搞好吧。”近日，与陈昱接触的国内大模型创业者们目前也没有特别焦虑，因为大家都沉浸在努力做GPT-4的进程之中，“我知道几家包括大厂内部都在训练，都没有训练完。”据他判断，第二季度会是国内版“GPT-4”真正出炉的节点。

万磊感受到，去年大家普遍都在“卷技术”。这位大厂出身的90后创业者说，如果不做真正技术上的突破，大家对于“国外AI教父是奥特曼，国内是李一舟”的吐槽便会成为现实，这是他最担忧的事情。

“焦虑是没有用的，不解决问题。”嘉程资本创始合伙人李黎称，创业者必须仔细看清楚当前所处的位置，做好能做的事情。

五、还有新机会吗？

当然，面对Sora，其他人不是完全没有机会。

在Sora模型发布的当天，Meta推出了一款全新开源视频预测模型V-JEPA。开源大语言模型在过去一年经历了如火如荼的发展，其中的佼佼者与GPT-4之间的差距已经越来越小。

硅谷风投机构Fusion Fund创始人张璐表示，开源领域有很大的竞争空间。她看好开源平台层面上有新的语言模型能对标GPT-4，当然也会有新的多模态模型能追上Sora。

技术的颠覆是更具想象力的一条道路。

现在业界基本达成共识，Sora所做的是把扩散模型Diffusion和Transformer骨架结合在一起，加上大量的数据和算力最终产生了我们看到的结果。

但这种方式也许不是文生视频的最优解。图灵奖获得者、Meta首席科学家杨立昆就曾多次批判OpenAI的技术路线。Sora的出现赢得所有人的惊叹之后，他也表示这些视频并不代表模型理解了物理世界。

Amino Capital合伙人徐霄羽表示，Pika未来的技术路线也很值得观察。这家初创公司目前正在自建模型。

在对Sora技术路线的质疑声中，老生常谈“作为AI大模型主流架构的Transformer也许并非唯一解”被重新提上日程。硅谷投资人们一直认为，如果能出现其他超越Transformer的新模型，那OpenAI就不会独占鳌头。

面对Sora的横空出世，Runway CEO第一时间在X上发推称，“game on（竞争开始了）” ，表态要和OpenAI正面竞争。

国内技术派创业者也没有示弱。“我们看到Sora也很激动，正在加班加点迎头追赶。”王长虎创办的爱诗科技仍保持乐观，这家公司和Sora完全处在同一赛道之上。

更多应用层的创业者则在思考如何能利用上Sora的能力来帮助自己。

“Sora出来之后，我们非常兴奋，做一个真的有血有肉的电影完全没问题了。”万磊第一时间意识到了公司的新机会，并立刻在合伙人群里分享自己的看法。

他参与创办的新公司主要业务是基于自研模型生成小说、剧本内容。去年，他们还讨论过将业务从剧本创作拓展至成品的短剧生成一条龙服务，但这个方向最终卡在了文生视频的质量上，当时市面上的接口基本都无法达到满意的效果。现在，也许新的机会就要来了。

“现在我们的战略可以重新调整了。”他说。

本文来自微信公众号：多面体InterfaceX （ID：jmchuangxin），作者：肖芳、李京亚，编辑：刘方远

终于更新，苹果发布 iOS 26.3 Beta（a）！

CES AI热点速览：黄仁勋惊人预言、雷蛇推出 AI 伴侣

热点科技快讯

人类唯一的出路: 变成人工智能（五）

本文来自微信公众号：Wait But Why（ID：wbwtimurban），...

报告：抖音海外版下载量突破10亿大关挑战Facebook

新浪科技讯北京时间2月28日早间消息，据美国财经媒体CNBC援...

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，...

人类唯一的出路：变成人工智能（三）

本文来自微信公众号：Wait But Why（ID：wbwtimurban），...

热门点击排行

问界商标转让释放信号：赛力斯与华为合作持续深入

报告：抖音海外版下载量突破10亿大关挑战Facebook

科技快讯分类导航

互联网创业

人工智能

大数据分析

行业热点

Sora冲击波

终于更新，苹果发布 iOS 26.3 Beta（a）！

CES AI热点速览：黄仁勋惊人预言、雷蛇推出 AI 伴侣

人类唯一的出路: 变成人工智能（五）

报告：抖音海外版下载量突破10亿大关 挑战Facebook

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

报告：抖音海外版下载量突破10亿大关挑战Facebook