首页 > 科技快讯 > 对话曹越:马尔奖、光年之外、Sand.ai,研究员到 CEO 的十年

对话曹越:马尔奖、光年之外、Sand.ai,研究员到 CEO 的十年



“OpenAI 是一个端到端的组织。”

文丨程曼祺

2023 年 2 月,美团联合创始人王慧文宣布创立光年之外,随后他密集拜访了一个又一个中国顶级的 AI 研究者,每见一个他就问:“你最推荐我继续和谁聊” 一个月后,他找到了自己的算法联合创始人——当时 31 岁的曹越。

曹越过去十年的每一个关键选择,都是大模型演化的一个注脚:他在 2014 年转向深度学习,2021 年拿下 ICCV 最佳论文,2022 年加入中国最早聚焦大模型的智源研究院,2023 年成为光年之外联创,2024 年创立 Sand.ai 做视频生成。

这篇访谈中,曹越完整分享了从研究员到创业者的十年历程,也折射出整个 AI 行业从萌芽到崛起的变化。

在个人选择和趋势判断上,曹越有一个贯穿的视角:关注组织与协作方式。2021 年,曹越凭借 Swin Transformer 拿下 ICCV 最佳论文马尔奖,但看到同年 OpenAI 发布的 CLIP 和 DALL·E 后,他很快判断,对方的突破背后是不同的组织和思维方式:

当时大多数国内研究组还是论文驱动,而 OpenAI 是去思考这个领域有什么大的、本质的问题,更加问题驱动。

当你很关注论文,就会受审稿人品味影响,去优化所谓创新性……但 OpenAI 的方法反而很简单,核心就是设计一个 scalable(可规模化)的系统,它能最大化利用算力。

这促使曹越在一年后,加入主攻大语言模型的智源研究院。当时 ChatGPT 尚未发布,大语言模型还不是行业共识。

24 年至今,曹越开始作为一号位创立 Sand.ai。在 Sand.ai 的两代模型——Magi-1 到 10 月刚发布的 Gaga-1 背后,是曹越组织思路的继续变化:从更侧重模型、技术驱动,到转向模型与产品/需求的深度垂直整合。

Gaga-1 的目标很具体——让 AI 视频中的人物真正 “能表演”。以往叙事内容制作的 AI 生成最大痛点就是:人物不一致、不能音画同出、表演太假。

研究背景的创始人能多快成为专业 CEO?环境又能给他们多少余裕?曹越和 Sand.ai 会以实践写下对这个关键问题的答案。

* 本期访谈也已发布「播客版」和「视频版」。

从 ICCV 最佳论文到研究 OpenAI 组织力

“OpenAI 最核心的思路,就是设计一个 scalable 的系统,然后最大化压榨算力。”

晚点:过去十年,你的每个关键选择都有代表性。回顾过往的 AI 经历,第一个在你脑海中出现的时刻是什么?

曹越:那还是转向深度学习的时刻。那是 2014 年,我上大四,当时深度学习在国内还不怎么火,甚至有教授在个人网页上明确写:“不做超过两层的神经网络”。

我比较幸运,当时我的副导师去伯克利访问,发现硅谷所有人都在讨论深度学习。我们组也是国内最早一批买了 GPU,开始做深度学习的组。接着是 17、18 年,我加入了 MSRA(微软亚研院)的视觉组。

晚点:这是个非常传奇的组。

曹越:对,他们在 14 到 15 年做出了 ResNet(残差神经网络)。一批人在 16、17 年陆续出来,有去公司的、有创业的。(编者注:这里走出来的创业者有商汤创始人汤晓鸥,旷视首席科学家孙剑,Momenta 创始人曹旭东等。)

这个组确实有一些传承。我最受益的有几点:一是你要去做最受关注的 topic,而且它是一个还有很大机会的,不是已经收敛的 topic。二是一旦识别到一个重要机会,要放足够资源去做到极致,而这本质是一个组织问题。

晚点:一个很受关注的方向,往往已经很多人在做了,怎么判断它仍有很大提升空间?

曹越:这个还真是有一些直觉。当你真的在一个行业里做了一段时间,思考过很多问题后,你会变敏感:一些在别人看来微妙的基础信号,在你这里会是非常剧烈的信号。

晚点:我们可以讲一个具体例子,就是你和亚研院同事在 21 拿到 ICCV 最佳论文马尔奖的成果 Swin Transformer,它是把 Transformer 用到视觉领域。你们怎么看到这个 topic 的?

曹越:Transformer 2017 年就出现了,它在整个视觉和多模态方向的普及有两个阶段:

第一个阶段是将 Attention(注意力)模块嵌入卷积神经网络(CNN)。

这个阶段的主要的思路,是用 Attention 来弥补 CNN 的缺陷。CNN 天然是局部的,感受野(一个深度学习网络中,“神经元” 能看到的输入区域)有限。而 Transfomer 里的 Attention 则能相对低成本地扩大感受野。

当时还有另一条路,但做的人比较少:就是试图用 Attention 模块直接替代卷积。我们组 18、19 年已经在做这个方向,但还是在跟随之前 ResNet 的整体结构,只是替换了其中卷积的部分。

第二阶是用 Transformer 的整体结构替代 CNN。

2020 年下半年出现了两个重要工作:一是 OpenAI 的 Image GPT。在 GPT-3 后,OpenAI 暴力地把 GPT 用到了计算机视觉,但因为效果不好,大多数人都没理解。

二就是 ViT,Vision Transformer。Image GPT 是直接在像素上做 Self-Attention,计算效率低;ViT 则将像素变成一个 patch,比如一个 16×16 的像素块来处理,它在 ImageNet 的图像分类任务上取得了不错的效果。(注:Self-Attention 自注意力机制,是一种特殊的注意力机制,它不是让输出序列关注输入序列,而是让输入序列中的每个元素都关注自身和其他所有元素,以捕捉序列内部不同位置间的依赖关系。)

这给视觉方向带来的核心认知是:别再拘泥于 CNN,应该尝试引入 Transformer 的整体结构。ViT 证明了在图像分类里可以这么做,因此我们判断:如果能基于 Transformer 的宏观结构,做出能适配多数视觉任务、且效果出色的网络,就有机会替代基于 CNN 的一套网络。

晚点:所以 Swin Transformer 的出发点就是不仅用 Transformer 来做图像分类,也让它能更通用地适应其他常见视觉任务?

曹越:对,包括目标检测、语义分割等等。在这之前,计算机视觉任务的复杂度比较高,不同任务的基础网络结构一般都是 CNN(ResNet),但整个任务的系统会有一些差异。所以这个问题就变成了:怎么用下一代 Transformer-based 网络结构替代过去的 CNN-based 网络结构

因为我们组很早就在研究 Transformer,我们对计算机视觉里的关键方向,图像分类、目标检测等又非常熟悉。所以我们最早在 ViT 之后,看到了这个机会,而且能明确感觉到这是一个大机会,原因有三点:

- 网络结构本身是深度学习领域最受关注的 topic;

- 如果它能实现,它对所有视觉任务的效果都会有较大提升;

- 有机会进一步打破 “计算机视觉必须用卷积” 的思维藩篱。

另一个关键是,我们识别到这个机会后,确实动员了很多力量,把组里能参与的人都拉进来了,一起在各个维度上把 Swin Transformer 做到了极致,最终效果明显优于同期的相似工作。

晚点:这正好是你最受益的另一点,就是看到机会后,你们的组织能支持你们实现到什么程度?

曹越:是的。你要能嗅到机会;也要有组织能力,能真的抓住这个机会,两者缺一不可。

不过这两者确实有时会打架。你不能每次看到什么 topic 热,就冲进去做一波;这样每个工作都做得不扎实,经不起时间考验。我也认识一类人,他每做一个 topic,就做得特别扎实,钻进去特别久,但往往等做好时,已经不赶趟了。但如果比较幸运,这类人还是可以做出非常出色的工作。

晚点:这听起来和企业里的研发与业务决策有共通性:需要思考方向和优先级、投多少资源、团队怎么协作。

曹越:不过看到 OpenAI 和 DeepMind 的一系列工作后,我意识到原有方法论的天花板很明显。AlphaFold 的突破、以及 2021 年初,OpenAI 的 DALL·E 和 CLIP 都很说明问题。

但当时我身边很少有人在研究为什么 OpenAI 能做出这样的工作,以及能给这些工作符合他们影响力的评价。大多数人的第一反应是这么做需要很多算力,他们有算力、我们没算力,所以跟我没关系。其实如果能放下 ego(自我),仔细研究这两篇工作,他们的做事方法论、mindset(思维方式)和组织形态都和当时我们做论文的感觉非常不一样。

所以 21 年-22 年,我经历了比较大的 mindset shift(思维转换),这促使我从微软亚研院离开,加入了智源研究院。

晚点:你在 21 年时,看到了 OpenAI 的什么做事方法?

曹越:第一是,当时大多数国内研究组还是论文驱动。这带来很多问题,比如论文有作者列表,有一作、二作,本质上不鼓励合作。OpenAI 也发论文,但并不把发表当作核心目标,而是去思考这个领域有什么大的、本质的问题,更加问题驱动。

第二时,当你很关注论文,就会受审稿人品味的影响,去优化所谓创新性,看能不能在方法上搞一些技巧。但 OpenAI 的方法反而很简单,核心就是设计一个 scalable(可规模化)的系统,它能最大化利用算力。

第三点是组织的不同:一个论文驱动的组织,大概率规模比较小,主要合作对象是学生。但如果你要打造一个系统,就需要很多类型的人:有人爬数据、有人洗数据、有人训模型、有人做评测,以及最后做 PR。

这需要一群有相似目标和思维的人,他们都希望把系统做好,而不是关注自己的论文署名排序。当时我不知道这种组织形态是什么,后来我发现,这就是创业公司。

晚点:所以你思考的起点是你想做出更厉害的 AI 技术,然后开始研究这背后的做事方法和组织方法?

曹越:对。那时其实还有一个障碍,就是疫情。从 2020 年到 ChatGPT 出来的两年多里,国内和硅谷的沟通少了很多,很多学术会议都因为疫情变成远程了。这导致国内忽略了 OpenAI 的变化,实际从 2020 年开始,他们已展现出了非常不一样的成果。

这就是我在 2011 年到 2022 年去智源前想得最多的事:为什么他们能做出来这么牛逼的东西?我们应该打造一个怎样的组织?身边有什么人能一起做这件事?

晚点:你当时没想过直接创业吗?

曹越:没有。那个时间点,我对创业的认知没那么深。

晚点:智源当时是什么状态?让你觉得它有可能实现你的想法?

曹越:智源是国内最早一批拥抱大模型的组织,它也是一个新型研发机构,不以发论文为核心指标。智源也很早就在部署算力集群,2022 年年中就有 1500 张 A100 连在一起的集群,当时国内超过 1000 卡的集群非常少。它还有个目标是开源开放,把模型开源,让更多人用起来。

所以它有一个比较宽松的科研环境,你可以筛选出有相似 mindset 的人和你一起做一些更前沿探索;大家的目标也是要构建一个系统。

在我当时的认知里,智源是国内最像 OpenAI 的组织,也是一个很好的,能让我自己做一些探索的组织。

中国为什么没有出现 OpenAI?王慧文说是 “不够富”

“到 2025 年再看,确实情况在变化:《哪吒》《黑神话》、DeepSeek、宇树,更多案例在出现。那么再过五年、十年呢?”

晚点:后来怎么开始光年之外的?

曹越:加入智源一段时间后,ChatGPT 就出来了,国内形势瞬间巨变。之前可能大家都没有觉得我加入智源是一个正确的选择。

再后来就是王慧文在朋友圈发英雄帖招募创业伙伴,真正点燃了国内这一波大模型热潮。

晚点:你和王慧文是清华校友,你们之前认识吗?

曹越:不认识。在 ChatGPT 出来之后到认识老王之前,我已经明确知道这是一个大机会,而且还有很大提升空间。我当时也意识到,不管过去是做计算机视觉还是 NLP(自然语言处理)的,都可以参与进来。

因为我已研究 OpenAI 一段时间了,他们的方法论和过去都不同,并不是带着先验的人为经验去看特定任务,而是前面提到的——去思考怎么设计一个 scalable 的系统,使它可以最大化压榨算力。

我也在想,我自己能怎么参与这个事?这首先需要做模型的能力,不仅是能复现,而且要能做前沿探索;还要考虑钱从哪儿来,后续怎么产品化,组织应该怎么建。

晚点:所以这时你已经在考虑自己创业了?

曹越:琢磨过。但结论是,这件事复杂度很高,我自己当时的能力,在于构建一个能训模型的组织,在其它方面缺的很多。所以和老王聊过后,感觉一拍即合。

晚点:他应该聊了很多人,为什么选择了你?

曹越:是,他每聊一个人就会问:你在这个领域最推荐我继续和谁聊?他几乎把当时国内比较好的研究者都聊了一遍。为什么选我?好像没具体提过。可能的原因之一是,我之前就从 MSRA 加入了智源,展现了更多对这个大方向的 conviction(确信)。

晚点:所以王慧文当时也和梁文锋聊过?

曹越:应该是有。我 23 年 3 月那会儿其实只跟老王和梁文锋聊过。

晚点:你和梁文锋聊的契机是?

曹越:也是他找过来。那是 DeepSeek 的筹备期,梁文锋当时也和国内很多研究者都聊了一遍。不过我见他时,已经答应老王了。

晚点:你前面也提到和王慧文是一拍即合,具体怎么契合法?

曹越:我第一次见老王收获就非常多,明显能感到这个人非常强,认知很深,也有很多实战经验。

当时我长期在思考的一个问题是:为什么中国没有出现像 OpenAI 这样的组织?我也问了老王这个问题,他很快给了一个答案:因为国内这些互联网公司,或者说我们的发展阶段,导致我们 “不够富”。

就是说,当我们处于追赶阶段时,前面有明确的目标,你只需要以更快的速度追上,在这个阶段,ROI(投资回报率)最高的是效率创新、模式创新,而非原创性创新。

而当你越来越接近前沿时,前面几乎没人了,方向感会变弱。这时,各个维度都需要思维转换:

对创业者:追赶和原创性创新需要不一样的能力。

对投资人,之前大家追求投 “看明白了” 的事,或 Copy to China 的项目。而现在,这类项目越来越少了;当更原创、有风险的 idea 放到你面前,你敢不敢投?

还有整个社会对失败的态度:原创性探索相比更确定性的追赶肯定会有更多失败,但失败中会涌现成功。失败能不能得到更多包容?失败的公司怎么退出?

相当于整个链路和生态都得变化。老王当时的认知是很深的。到 2025 年再看,确实情况在变化:《哪吒》《黑神话》、DeepSeek、宇树,更多案例在出现。那么再过五年、十年呢?我自己对未来很乐观,我能明确感到我们处在一个转换阶段。

晚点:你问王慧文 “为什么中国没出现 OpenAI?” 他说 “不够富”;而梁文锋做 DeepSeek 时,刚好是相对富的状态。

曹越:如果没记错的话,23 年初聊的那次,梁文锋当时的想法就是希望能在国内做一个 OpenAI 这样的组织,在相当长一段时间里不以商业化为目标。他也认为中国需要越来越多原创式的创新。

晚点:光年之外这段经历中,哪些判断和做法是你自己现在创业依然保持的?哪些会去调整?

曹越:对人的判断没有变:就是招募那些毕业 3-5 年或即将毕业的 PhD(博士生),他们沉浸一线、能力出色、学习状态处于巅峰;不用太在意他之前到底是做 NLP、视觉还是语音。这一点现在可能是共识了,但每个公司意识到的时间不太一样。在 23 年时,光年之外和 DeepSeek 已经是这样招人。所以当时这两家公司的人才竞争最多。

另一个经验是,CEO 的压力还是非常大,所以要照顾好自己身体,控制焦虑。

晚点:这有什么方法吗?

曹越:对我来说,最有效的方法是思考一些人生层面的大问题,它其实能促使你去关注过程本身。

晚点:之前我们聊到,今年 3 月 DeepSeek 大火后,你和梁文峰又见过。这缓解了你的焦虑,为什么会如此?

曹越:当时外界对 DeepSeek 很亢奋,但他自己挺平静。其实在那个状态下,要保持平常心超级难。我见过他后,也会有意少去关注那些可能给我输入噪音的渠道。

“创业后,突然感觉什么都对了”

“这件事的另一面是,极致地追求个人成长。就像芒格说的:要得到你想要的某样东西,最可靠的办法是让你自己配得上它。”

晚点:光年之外结束时,至少对外界来说是非常突然的。你当时是什么感受?

曹越:没能继续往前走,肯定会有失落。但那时我和袁老师(袁进辉)还要处理很多事,包括组织里的同学后续怎么平滑过渡等等。所以静下来是过了一段时间了。

晚点:那应该是 2023 年夏天之后,你开始筹划创立 Sand.ai 了。这是一个怎样的过程?

曹越:那时在广泛地看,是应该自己创业,还是再加入一家公司。后来还是决定自己创业,看了一些方向后决定做 AI 视频生成。

这是一个找交集的过程:什么事会让自己兴奋?有没有合适的团队一起做?这个领域是否空间够大?同时未来还有巨大提升空间?

晚点:这有点像你做研究时选 topic 的思路:重要的,且有巨大提升空间的?

曹越:是的,AI 视频生成当时还比较早期,Sora(第一代)还没出现;它的潜力非常大,技术侧如此,商业侧也是:它是一个你在解锁不同能力后,就能解锁不同场景和需求的方向,能持续很长时间。

晚点:为什么没有再加入一家公司?

曹越:经历光年之外后,很难再加入一家其它公司。老王一开始找的人都非常对,他找人的方法很对,从技术侧的 Infra、模型再到产品、融资、商业化的完整性也很强。我们在任何维度都不输其它公司。我也不知道这个心态对不对,但当时真实感受就是,我很难决定再加入另一家公司。

晚点:创业本身对你的吸引力是什么?

曹越:我发现创业特别适合我,突然感觉什么都对了。你应该能感觉到,我不是一个非常典型的研究者。相比把一件事钻得特别深,我更关注领域的大方向,关注人和组织。虽然科研也做得还不错,但我也没有强烈地想去拿教职。

那段时间我也一直在想自己是个什么样的人?最核心的自我觉察是:ambitious,这是我的底层驱动力。

晚点:Ambitious 之于你具体意味着什么?是想做成一件事儿,还是想赢?

曹越:是希望能做成一件对世界有很大影响力的事。这件事的另一面是,极致地追求个人成长。就像芒格说的:“要得到你想要的某样东西,最可靠的办法是让你自己配得上它。” 当你能对事物能有深刻认知,并能充分训练自己的能力,你才有可能做出对世界有巨大影响力的事。

回溯自己过去 5 到 10 年的各种决策 ,我发现都是由 ambition 驱动的:比如看到 OpenAI 的 CLIP 和 DALL-E 时,有人的反应是 “这事我做不了,我就说它不好”。而我的第一反应是:为什么我们做不了?难道我们就比他们笨,比他们菜吗?我觉得不是,这和组织方式有关。当我看到和自己技能相似的人能做出非常大的成就时,我希望自己也能做出有类似影响力的事。

所以真的了解创业后,突然感觉什么都对了:它需要一个人有相对全面的能力,它的天花板也非常高,能做成的事情非常多样化;它对一个人的考验也是地狱模式,会促使个人极致成长。

晚点:你选择 AI 视频,和它不在核心大模型公司的最主轴有关吗?

曹越:竞争是一个维度,但不是决策的主轴。本质还是因为 AI 视频方向的技术和商业天花板都很高。它在那个阶段甚至都没有好用的模型。所以它非常适合我这样模型背景的创始人。而直接做大语言模型,那个时间点肯定比较晚了。

晚点:Sand.ai 正式成立、运营是 2024 年 1 月,正式发布第一个模型 Magi-1 是 2025 年 4 月,为什么花了一年多这么久?

曹越:因为我们选择了自回归(Autoregressive)这个路线。还是低估了这个路线的难度。

晚点:为什么选择自回归?为什么它做起来比较难?

曹越:学界做自回归比较早。GPT 出现后,一些团队在 2020 年、2021 年就在尝试。当时大家对自回归的理解是,用一个模型结构同时处理语言、图像和视频。但也是因为它要和语言模型端到端地做在一起,所以一开始的效果没有一些传统的扩散模型好。

我们 24 年用自回归做视频生成时,是认为视频的数据类型天然就是持续顺序播放的,这和语言类似,语言也是顺序去看的。能最大化压缩语言信息的训练方式就是预测下一个 Token。对视频而言,最大化压缩视频信息的方法是不是也是持续顺序地做预测?时至今日,我也觉得这个直觉是对的。

但是这个思路很新,没有好的 reference(参考)。探索过程中,在数据、算法、Infra、预训练、后训练、评测环节,都要做非常多从 0 到 1 的工作,而且每个环节都得做到极致,效果才会好,这对一个刚搭建的团队挑战很大,也确实会面临人手短缺。

晚点:你们在 24 年到 25 年做 Magi-1 时,有多少人?

曹越:三四十人。在那个阶段,一方面是对业务侧的敏感度不够——业务还是需要交付快、迭代快;另一方面,是有些低估做一个新型模型的难度。最终导致了 Magi-1 发布时间相对晚。

晚点:这是否让你们错过了一些业务窗口?

曹越:纯画面、单个素材的生成此前就已经卷到了一个相对收敛的阶段。今年涌现的新能力是音画同出、叙事。

之前训练 Magi-1 的经验,让组织依然有能力训一个不错的自回归模型;同时在新阶段,我们希望能做好以人物表演能力为核心的视频生成模型。算法侧会以更快交付和迭代为目标,这是和做 Magi-1 时不太一样的。

现在的关键是要抓住音画同出的这个窗口。对专业创作者而言,音画同出能力可以生成非常真实的人物。而对大众消费者,它能比较低门槛地去生成一个好看、好玩、可以传给朋友的视频,可消费,能社交。

“Sora 2 是一个端到端的模型,OpenAI 是一个端到端的组织”

“OpenAI 做到了从产研到模型的较好垂直整合:在对齐目标后,产品需求的梯度可以回传到模型团队。”

晚点:刚好在我们这次聊的几天前,OpenAI 突然发布 Sora 2 和 Sora App,它的特点就是音画同出,而且有一些社交玩法。我知道你第一时间用了这个产品,最大的感受是什么?

曹越:模型层面 Sora 2 有 3 个特性:音画同出、能保人物 ID,但最让我惊艳的还是,它在一个约 10 秒的时长里做到了基础叙事,因为它有分镜能力。而之前更主流的思路是用 Agent 来实现叙事,比如一个语言模型负责脚本;一个分镜模型负责分镜生图,然后图生视频;再有配乐的相应模型等等。

OpenAI 非常创新的一点是,它用一个端到端的模型直出了带叙事的 10 秒短片。

晚点:这是不是和 Sora 2 更重视 C 端用户有关。因为更专业的影像内容制作者可能需要 Agent 这种方式去更精细地控制美术风格、分镜和声音。

曹越:可能是一个反过来的过程,有了模型能力提升,才联想到了 C 端场景。

为什么之前大家倾向 Agent?因为早期模型不能音画同出,也不能分镜。这时,一个视频生成模型只是制作流程里的一环,仍需要人来设计脚本、分镜和配乐……从这个工作流延伸,自然的思路是,能否用 Agent 去替代人?

但 OpenAI 的思路是,为什么不能让模型端到端直出叙事能力?这是一个大变化。当然它的前置条件还是模型进展——只有画面、没有声音的视频,一般人是不想看的。最早做出音画同出的人更有可能最先意识到,原来模型可以直出一个 C 端可消费的视频。

晚点:你觉得 OpenAI 是怎么实现端到端完成叙事能力的?

曹越:这次的技术报告很模糊,我推测,Sora 2 仍基于 Diffusion (扩散模型),但不能确定是双向的还是单向的。不过从技术上,这些进展都可以预期,没有什么石破天惊的 idea:Google 5 月发的 Veo 3 已能音画同出;而保人物 ID,关键是视觉和声音的一致性,这也是被研究已久的方向。即使是叙事能力,在 Sora 之前也有模型已具备分镜功能,Sora 2 确实分镜做得更好。

真正让我有认知迭代的是 OpenAI 的组织力。我个人认为,OpenAI 做到了从产研到模型的较好垂直整合:就是在对齐目标后,产品需求的梯度是可以回传到模型团队的。整个组织就是 “端到端” 的。

当产品想实现某个能力时,他们的第一反应不是通过模型组合或产品侧研发来达到目的,而是问:能不能把它直接做到模型里?

具体到 Sora 2,他们也许在某一阶段对齐了目标,是要做 “叙事短片”,接着模型团队定义内部 benchmark(基准),然后通过模型侧优化完成目标,释放能力。

我感觉,OpenAI 里,很多人共有的一种解决问题的哲学就是,如果一个问题有机会被端到端解决,就应该优先被端到端解决。

其实回顾大语言模型,OpenAI 也有类似的脉络:在 2020 年 6 月 GPT-3 出现后,OpenAI 的阶段性重点就是把 GPT-3 对齐成普通人能用起来的界面。这其实就是一次垂直整合,是从需求侧去看怎么用 GPT-3,所以有了之后的 InstructGPT,有了整个后训练过程,再到 SFT(监督微调)和 RL(强化学习)。这是一个你有了基础模型后,怎么让人用起来的过程。(注:2022 年 1 月对外公布的 InstructGPT 在 GPT-3 基础上,引入了基于人类反馈的强化学习即 RLHF,让模型能生成更符合人类意图、习惯和偏好的回答。)

这体现了 OpenAI 当时就拥有一种产品 sense,或者说,是从模型到产品的端到端优化能力。

Gaga-1 专注解决人物表演,这是叙事内容最大的卡点

“之前大家在群聊里斗表情包,当视频生成足够简单,也可以斗视频。”

晚点:Sand.ai 也在十一之后发了新模型 Gaga-1,它的特点是什么?

曹越:我们的新模型能音画同出,主要聚焦人物说话和表演。这之前,只有画面的视频生成内容只能满足叙事片中的 B-roll(如空镜、转场等),但对 A-roll(有人物和角色表演的部分)就不行了。比如先生成画面再用 AI 对口型,看起来会很怪,很难跨越 “恐怖谷”,达不到普通人的消费门槛。而大家消费的绝大多数视频里,一半以上的画面都是人。很多短剧、广告片从业者也告诉我们,过去模型最大的卡点就是 “人物太假,没有表演”。

所以今年年中开始做这一代模型时,我们的目标就是优先解决好人物表演,这需要做好人物一致性、情绪表达、音画同出等能力。

晚点:在那个时间点,这个洞察是行业共识,还是一个相对独特的判断?

曹越:从结果看,当时大家并不是都把这个当重点。这背后是,你到底是从需求出发,还是从技术出发?我们认为应该更多从需求出发;同时能做技术判断,知道什么可实现、什么不可实现,这就更容易找到需求和模型的契合点。

晚点:Gaga-1 服务的用户是谁?优先级排序是怎样的?

曹越:有两类,第一类就是叙事内容的专业创作者,比如 AI 短剧、投放素材、广告宣传片的制作者。这些内容都需要生动的人物表演。

第二类就是不同 C 端消费者,当视频可以音画同出时,它对普通人真的到了一个 for fun 的临界点。之前大家在群聊里斗表情包,那当视频生成足够简单,也可以 “斗视频”;过去用语言表达不足以传递的情绪、情感,也可以用视频,这是一个天然的社交传播场景。

目前短剧制作者等相对专业的用户优先级最高,我们 10 月 11 日发布的 Gaga 线上产品,就能让大家能充分体验模型能力。

晚点:什么时间点可能会做 C 端产品?

曹越:正在计划中。我们目前认为,模型具备叙事能力后再做 C 端比较合适。它很有可能是个 APP,但需要花更多时间打磨定位,它也会是一个从模型到产品的端到端设计。OpenAI 确实给大家提供了很多启发。

晚点:你们现在的重点用户是叙事内容制者,他们很看重成本,Gaga-1 能做到什么水平?

曹越:我们场景相对聚焦,所以这代模型成本控制得比较好,不到 Sora 最便宜版本的 1/10。在这之前,实际上做一部 AI 短剧,即使表演还不太好的情况下,它和实拍间的成本差距也没有那么大。(注:Sora 2 最便宜的标准版,每秒收费 0.10 美元,可生成 720p 分辨率的视频。)

晚点:短剧之前实拍成本是多少?现在你们的模型能帮助降到多少?

曹越:21 年左右,实拍一部总长 60 到 100 分钟的短剧,总成本是 10 万左右。后来行业卷起来了,到 23 年大概要 30-40 万,甚至更高,现在略有回落。

而如果用 AI 做,之前主流价格是每分钟 2000 到 5000 元,一部剧的大致成本在 20-40 万元。但问题是,即使花了这么多钱,AI 短剧的质量还是没法和实拍比。而在我们现在已经做到了 1 分钟 1 美元以下,还有盈利空间,成本下降了非常多。

晚点:Gaga-1 的发布时间刚好赶上 Sora 2 之后,这对你们是怎样的影响?前段时间我也和 Lovart 陈冕聊了 Sora,他认为巨头会加速投入类似的 AI to C 和社交产品,因为做成的收益很高,错过的代价又太大。这会不会挤压小公司 “猥琐发育” 的空间?

曹越:没有 Sora,整个视频方向也很受重视,本来就挺难 “猥琐发育”。但坦率说,大公司虽然投入很大,但动作不会那么快。同时,Sora App 是否真是一个 C 端平台机会,还需要观察。我认为,新 C 端平台至少有两个直接条件:是否是一种新的内容形态,是否有新的传播链路。到目前为止,Sora 在这两点上没有颠覆性的表现,它还是更像一个工具,很多人会用 Sora 做好视频,再发到朋友圈、小红书、抖音、快手。

晚点:你会以哪些指标去观察 Sora 未来能否成为一个 C 端新平台?

曹越:最关键的还是留存,至少能先满足一部分人的长期需求。再往后它能不能成为一个大的 C 端平台?现在没有人有答案。

垂直整合组织的核心就是:不同背景的人能对齐上下文

“产品的人更理解模型,模型的人更理解产品。”

晚点:从 Magi-1 到 Gaga-1,Sand.ai 经历了从更侧重模型驱动,到产品需求和模型训练做 “垂直整合” 的转变,这是怎么发生的?

曹越:核心还是在于,对创业公司,跑通 PMF(产品市场契合)更重要。过于强调技术驱动,可能很难取得阶段性的用户或商业化目标;但如果完全从需求出发,又有可能技术落后。怎么平衡这两部分是最难的。

晚点:逻辑上好像理应如此。但为什么一开始很难做到?

曹越:这个阶段本质还是技术驱动的。懂 PMF(产品市场契合)产品经理或商业化的人,需要时间去理解模型的边界和发展方向;而做模型的人,特别是最顶尖的那批人,他们之前大部分没做过产品和业务。两边都要去补另一边的能力。我自己就花了很多时间去学习怎么做产品化、商业化,怎么做组织。我目前的认知是:需要建立一个更 “端到端优化” 的组织,也就是一个垂直整合的组织。

晚点:有了这个认知后,你自己和你们团队有什么变化?

曹越:核心就是把模型、产品和运营的人混合起来。其实就是让大家有更多交流,“对齐上下文”。比如让你认为技术和产品的最关键的人之间相互 one-on-one(1 对 1 沟通);让我自己成为一个重要的分发中心——作为算法出身的人,我今年花了最多时间在产品运营。这样,至少跟我沟通的人,上下文都是非常对齐的,组织里其它同学再和他们对齐。

我觉得一个垂直组织最核心的就是:不同背景的人,能逐渐对齐共同的上下文。产品的人更理解模型,模型的人更理解产品。

晚点:你现在怎么看 “模型即产品”?

曹越:最早大家说 “模型即产品”,是表达不需要在产品和运营侧过多 “雕花”,稍微有点儿产品要跟着模型走的意思。早期时可能确实如此,产品就是为了最大化展现模型能力,而不要加入太多产品侧先验。

但垂直整合比这要更进一步,如果产品设计得足够好,它不仅能展现模型能力,也能在能力相似的情况下,放大模型体验。Sora 2 里的 Cameo 就是个例子:这首先来自模型现在能音画同出,所以你可以把人植入进去。那这怎么成为一个 C 端产品功能点?OpenAI 做了一系列设计:邀请码拉新、@ 熟人合拍、Cameo 授权分层等。模型和产品互相放大。所以在现在这个阶段,产品也有很多可以迭代的空间。

晚点:在 Gaga-1 和对应的产品上,你们自己是怎么实践“垂直整合”的?

曹越:新模型的核心是能够生成逼真的人物表演。然后是这个目标实现后,哪些功能特别重要。一个例子是保 ID,就是人物形象、样貌、音色的一致性。

这些表象变化的背后还是组织的垂直整合,是从产品到模型,先对齐了 “人物表演”、“保 ID” 这些优先级。如果是纯产品公司,只能调模型 API,它首先很难根据产品侧对功能的优先级,去调整模型优化方向,同时,也很难通过模型侧去优化去实现其它产品没有的独特用户体验。

从研究员到 CEO

“没有喜欢或不喜欢,更像是两个角色之间存在夹角,需要时间去磨合。”

晚点:我知道你除了通过和人聊来学习、思考之外,也很喜欢和大语言模型聊。你和 Gemini 聊得挺多的。

曹越:全球最强的模型已经非常强了,只是很多人还没意识到这一点。

我上一次明确感受到它的能力,是今年 5 月我们团队在讨论一个算法问题,有人把问题丢给了 Gemini 2.5 Pro,它不仅补全了讨论中被忽略的部分,还提出了一个相当靠谱的解决方案。我们当时开玩笑说这是 Vibe Research。

之后我开始经常和它讨论,发现了几个有意思的地方:

第一,人类思考常靠类比,但类比是危险的,因为两个事物间既有相似也有不相似。语言模型特别擅长拆解类比——它能准确指出两者的关联、不关联,以及原因,让你看到那个 “看似相关、其实不然” 的结构。

第二,它是一个极强的结构化工具。比如我思考一个问题,会把想到的零散点输入给模型,它能迅速把碎片整理成有逻辑的结构。

所以它已经成了我的思考伙伴,“Gemini 老师”。每天我可能会花一两个小时跟它聊各种问题,它能不断抛出新视角,帮我理解得更本质。

晚点:你会信任大模型更胜于人吗?比如当一个人和 Gemini 给你讲同一个观点时,你的反应会有何不同?

曹越:人与人之间最难的,是对齐上下文。当我说出一个想法时,背后有大量前提,但我只能把它压缩成几十个字,听的人也只能接收这几十个字。要真正对齐,我们得花半小时、一小时去补全背景,对双方都很消耗。

而语言模型在这点上非常强。比如产品同学和算法同学讨论时,一段话里可能有三四个需要背景知识的概念;算法同学就可以把这段话发给模型,告知模型说话人的背景,让它补全语境,帮助理解。我会带头这么做。

所以这不是更信任谁的问题,而是模型能显著降低人与人交流的摩擦,桥接人和人之间的认知差。这是一种底层变革,多数人还没意识到这一点。

晚点:这是不是本身也可以被做成 AI 应用?

曹越:我知道一些朋友在做类似的,比如 AI 约会助手 app——男生截一张聊天问模型:“她这话什么意思?” 女生也会问 “他在暗示什么?” 这个场景的本质就是帮人补齐上下文。

上下文差异和两件事有关:一是人与人的背景差异:性别、文化、成长环境;二是和聊的话题有关,比如算法同学听产品术语,可能晦涩,反之亦然。而语言模型掌握世界上几乎所有的公共知识,所以能比大多数人更快听懂另一个人说什么。

晚点:你最近和一些真人交流,有什么收获和启发?

曹越:现在应该能体会到,和人交流的启发没有和 Gemini 大(笑)。

其实最直接的收获来自潜在客户,前阵子和影视行业一位前辈聊,他说了一句让我印象很深的话:“所有内容的终局都是叙事。” 叙事是让内容成立的基本结构:短视频最早是 “记录美好生活”,后来是卷观看体验,哪怕只有 15 秒;包括你做一个 up 主,人设也是一种叙事。

晚点:你之前有一段时间的微信签名是:“想想伊利亚(Ilya,OpenAI 前首席科学家)怎么想?” 现在的学习对象发生了什么变化?

曹越:那是我研究 OpenAI 比较多的那几年。现在我会想得更广——老王、一鸣、李想、雷军……从这些人的思维方式里抽象出他们看问题的角度。最开始也许只能体会其中一层,但可以在实践里继续验证。

晚点:你和王慧文一起创业时,从他身上学到了什么?

曹越:我第一次和他聊到想做 AI 视频方向时,他就给了我一个建议:去研究一下皮克斯,这家公司的商业模式很好。皮克斯的启发在于,它从图形学技术出发做电影,票房只是第一步,更关键的是角色 IP 留在公司,可以长期运营与变现。而真人电影的角色心智却会被演员带走,制片公司很难持续沉淀 IP 资产。所以皮克斯既有影视业的叙事生产属性,又具备 IP 产业的可持续收益属性,而且一切源于技术驱动。

晚点:从研究者到创业者的转变中,哪些部分是你喜欢的?哪些部分是你不喜欢,但不得不适应的?

曹越:这没有喜欢或不喜欢,更像是两个角色之间存在夹角,需要时间去磨合。从一开始更多琢磨什么技术影响力更大,到关注什么系统影响力更大,再到更多关注产品和商业价值。

晚点:你现在最优先级的工作是什么?

曹越:就是理解清楚 AI 视频的方向,识别未来一段时间里的最大机会;打造 Sand.ai 的组织,抓住这个机会。

晚点:你已经看到一些眉目了?

曹越:AI 视频的核心逻辑,是语言、图像、视频、声音等模型的能力进化。它短期仍然更像一个工具型机会。但随着模型越来越稳定、输出质量越来越高,就有可能出现 C 端机会。这在真正思考过行业的人之间应该是共识。

没有共识的是 timing(时机),这也是最判断的,现在没法讲太多。本质上就是你要在判断时机后,提前为那个方向做准备。这也考验组织的节奏感和行动力。哪怕你判断对了方向,如果组织的节奏跟不上,也会错过机会。所以我现在才特别关注组织。

晚点:最后一个问题——分享一个你最近在思考、或者接下来想验证的问题。

曹越:我有时会想一个开放性问题:ASI(超级智能)什么时候会出现?当它真的出现,会以怎样的方式改变世界?语言模型的智力水平其实在持续提升——如果粗略类比人类的智商曲线,它已经从几十提升到一百,未来可能到一千。它和人之间的差距,可能就像人和猴子的差距那么大。大人和小孩智力差别,已足以让前者 “哄住” 后者。那么一个智力远超人类数倍的系统,会如何看待和影响人类社会呢?

题图来源:Sand.ai

相关推荐

对话曹越:马尔奖、光年之外、Sand.ai,研究员到 CEO 的十年
和两位CEO 聊Sora: 应用层爆发的里程碑事件,创业者的机会来了
王慧文病倒,光年之外会草草收场吗?
王慧文“托孤”,光年之外“上岸”
从美团收购光年之外,聊聊科技公司是如何收并购的?
独家丨美团宣布收购「光年之外」
美团以20.65亿人民币收购光年之外
| 甲子光年
关于王慧文病情和光年之外,我所了解的情况
对话 Momenta 曹旭东:超越智驾的摩尔定律

网址: 对话曹越:马尔奖、光年之外、Sand.ai,研究员到 CEO 的十年 http://m.xishuta.com/newsview143877.html

所属分类:人工智能