首页 > 科技快讯 > OpenAI o1 如何延续 Scaling Law，与硅基流动袁进辉聊 o1 新范式

OpenAI o1 如何延续 Scaling Law，与硅基流动袁进辉聊 o1 新范式

晰数塔互联网快讯
2024-09-20 23:57

“如果每天和开发者打交道，你不会感觉这个行业停滞或变冷。”

文丨程曼祺贺乾明

《晚点聊 LateTalk》是《晚点 LatePost》推出的播客节目，在文字报道之外，用音频访谈形式捕捉商业世界变化的潮流和不变的逻辑，与这其中的人和故事。

OpenAI 发布新模型 o1 后的第二天，我们邀请了硅基流动创始人袁进辉与我们分享了 o1 的技术意义，也讨论了今年 1 月至今，袁进辉观察到的 AI 开发者社区变化。

o1 的一个重要变化就是增加了分配给推理（inference，即大模型的使用）阶段的算力，推理阶段计算（test-time compute）重要性提升。

而袁进辉今年初创立的硅基流动（SiliconFlow）就是一家做推理加速优化的 AI Infra（中间层软件）公司。他是一位连续创业者，曾在 2017 年创立一流科技（OneFlow），在 2023 年加入王慧文组建的大模型创业公司光年之外，成为联合创始人。（袁进辉的上两段创业故事，可听《晚点聊 LateTalk》第 58 期。）

o1 打破了一个预期——过去，在大语言模型范式下，模型在解决逻辑推理问题时遇到了瓶颈。而 o1 通过 3 个技术方法，显著提升了模型的逻辑推理能力，包括：

强化学习，也就是 RL（Reinforcement Learning）chain of thought，也就是思维链还有 test-time compute 或者 inference-time compute，也就是在推理阶段分配更多计算资源。

o1 在科学、数学和编程等需要更多逻辑能力的任务上都有很大提升。

袁进辉在这期播客里比较通俗地解释了上述技术方法是怎么发挥作用的；我们也讨论了，o1 的这些新技术特性，对算力消耗量，行业应用和其它 AI 公司动作的影响。

硅基流动直接服务大量开发者。与很多人的观点不同，袁进辉说，在应用开发端，他没有感到 AI 热潮的冷却，只是现在涌现出的很多开发者是小微企业甚至是个人开发者，他们不在传统 VC 的视野里：“如果每天和开发者打交道，你不会感觉这个行业停滞或变冷。”

所以一方面，创投市场觉得 AI 应用的爆发不如预期，另一方面，实际调用量也在快速增长。

袁进辉还分享了一些一手数据，比如硅基流动自己的客户，调用最多的开源模型是阿里巴巴的通义千问（Qwen 开源系列）、幻方的 DeepSeek，和 Meta 的 Lamma，Qwen 的优势是不同规模模型版本齐全，DeepSeek 则有突出的编程能力。

以下我们摘录了播客中的部分内容：

强化学习、思维链，每一个 idea 都不是石破天惊，但 OpenAI 做了最好的组合

《晚点聊》：看到 o1 发布是什么感觉，哪些部分超出预期？

袁进辉：这个提前已有多次消息泄露，有一些预期已经支出了。o1 兑现了之前的承诺，就是用合成数据、强化学习等方法在 reasoning （逻辑推理）能力上有突破，数理能力、编程能力都有较大提升。

《晚点聊》：你觉得这是个什么量级的变化？openAI 称其为新阶段（new level）。

袁进辉：一般会认为大模型有三层能力：一是对语言的掌握——语言生成得流畅不流畅、地道不地道；二是对常识或世界知识的掌握——比如知道一些交通规则。之前的大模型，不管 GPT 还是其他开源模型，这两个能力都做得非常好了。

但还有一层，是考验智商的部分，我们叫逻辑推理或 reasoning，这一块公认做得不够好，也有人说这限制了 agent（智能体）的发展。

而这次 o1 用一套行之有效的方法论把 reasoning 能力提高了一大步，能解决相当多问题，确实让大语言模型能力往上迈了一个台阶。

《晚点聊》：今年 7 月，Google DeepMind 发布了 AlphaGeometry 更新版，也使用了强化学习，它差一分就可以拿到 IMO（国际数学奥赛）金牌。但相比 o1，好像没那么多人讨论，这是为什么？

袁进辉：AlphaGeometry 等 Alpha 家族，就是 AlphaGo、AlphaProof、AlphaCode 等等，这些在大模型之前几年已经发生了——就是用强化学习，让模型解决某一个规则非常清晰的领域的问题，模型可以做得比人好，所以这个 “wow” 时刻在 AlphaGo 时（2016 年）已经有了。

然后下一个 wow 时刻是 ChatGPT，也就是 GPT-3.5，大家发现模型能把语言问题和世界知识也解得非常漂亮。

而现在这个 wow，是在 GPT 上叠加了 Alpha 家族的方法论，打破了之前有一种预期，认为在大语言模型范式下，专业问题比通识问题更难。

同时从应用价值看，大模型在逻辑推理能力上的突破也可能明显促进 agent 发展。之前 agent 跑不通，主要就是受限于模型的逻辑推理能力。

《晚点聊》：我们来拆解一下 o1 使用的技术，这次 OpenAI 提到了强化学习、思维链（chain of thought,CoT）、test-time compute（测试时间计算）等新方法。它们是怎么发挥作用的？

袁进辉：无论大语言模型还是强化学习，都是 “统计学习”，也就是数据里有什么，模型才能学到什么，数据里没有，或数据里不充分的——比如某种规律或 pattern（模式）出现的频率不够高，模型就学不到或学不好。

你提到的这些方法都是基于这条原理衍生的。其中强化学习的重要作用是生成专业性数据，因为自然语言语料大多数是通识类、消费向数据，专业数据不够。

强化学习怎么生成数据？以 AlphaGo 为例，它自己构造了一个博弈环境，让 AI 自己和自己下棋，中间会形成很多博弈轨迹（trace），这些数据可以补充到训练数据里。

同时强化学习有一个基本环节是反馈，AI 和环境交互后，环境会给反馈，正向后果要给激励（reward）。如果是规则特别清晰的领域，构造这个反馈环路更容易，比如 AlphaGeometry 解数学问题，答案正确就给激励。而另一些场景里，构造反馈环路就比较难，比如自动驾驶肯定也有仿真环境，但总有一些 corner case，仿真环境没法覆盖，那得到的反馈就不够真实，训练出的 AI 就有缺陷。

所以有清晰规则的问题，容易用强化学习；越不知道怎么描述胜负和评判对环境产生后果的场景，越难用强化学习。现在相当于是把清晰规则场景里已验证的一套方法，拿到了大语言模型里，还能解决看起来比 AlphaGo 更泛化的问题，所以它是一个进步。

《晚点聊》：思维链发挥什么作用？很多人把它形容为 “像人一样思考”。

袁进辉：其实也是解决数据问题。原始自然数据里，语言也好，图像也好，最充分的 pattern 是那些微观、细粒度的东西，比如一个像素旁边的另一个像素是什么，一个词后面的一个词是什么。但那些更宏观、抽象层次更高的东西，更粗略的结构，通常在自然数据里是不充分的。

所以之前的语言模型，已经可以胜任局部生成或一个简单的逻辑推理；但中间包含较多步骤的、宏观的、复杂的问题就超出它的能力，因为它见过的这种数据太少。

Chain of Thought 其实就是给大语言模型一些提示，让它把一个宏观问题分解成小步骤，每个小步骤之内，是原来的模型妥妥能做好的。

但 o1 可能还多做了一些东西，就是强化学习的训练架构下，也生成了一些宏观的 chain of thought 策略数据，把他补充到语料里。所以强化学习和思维链，它们一定程度是正交的，强化学习可以帮助合成一些宏观的、总结的数据。这是一种猜测，没有确认。

《晚点聊》：那么一开始怎么定下拆分步骤的策略呢？

袁进辉：最早的思维链是人通过 prompt 来提供问题分解，AI 做不了。现在应该可以抽取一些通用的求解策略，也就是用规则方法，比如计算机里有一些基本算法可以把大问题分解成小问题，这些方法可能只有十几个，已能解决绝大部分可用计算机解决的问题，相当于有套路。

当然还有一种更优雅、泛化能力更好的方法，就是在拆解步骤的层面也训练一个模型，用模型来筛选思维链。

现在都是猜测，我觉得 o1 训练时，应该是加入了思维链层面的这种合成数据，但在 inference 时，有可能这个思维链还是规则系统，不是一个模型。

如果是一个稍微复杂一点的规则系统，沿着决策树，会试探再回退——如果往前想了一步不对，会回退到上一步再试探其它路径，我怀疑 o1 在推理时还没做到这个。

《晚点聊》：o1 发布时，OpenAI 没有向用户展示原始的思维链，并说这是几经考虑的选择。

袁进辉：它如果展示了这个，就相当于展示了技术秘密，其他人可以更好地去分析它到底怎么做的。

《晚点聊》：OpenAI 自己说主要是出于安全原因，还有避免用户被操纵。

袁进辉：那也是，因为如果放出思维链，外界就能更好地去 hack 它，或者做越狱尝试。

《晚点聊》：我们可以继续聊 test-time compute，强化学习弥补的是专业数据的稀缺，思维链弥补的是宏观数据的稀缺，test-time compute，也有人把它叫 inference-time compute，它发挥什么作用？

袁进辉：它其实是解决，模型只计算一次搞不定的事情。

过去搞不定，一部分原因在于模型缺乏解决综合问题或宏观决策问题的拆解步骤的数据。除了在训练阶段下功夫，也可以通过在 inference 时把问题分解成一个个步骤——每个小步骤都是大模型擅长解决的——最终解决整个问题。

它不像前两个方法是直接补充训练数据，在训练阶段发挥作用；它是在推理阶段工作，在模型已经定型后，仍可以通过分步解问题，给用户更好的体验。

这个思路其实在一些 RAG、workflow 里也有体现。比如上海人工智能实验室做了 MindSearch，人在搜索时，也会做反思，琢磨用什么更好的关键词，怎么搜得更好，MindSearch 就做了类似的工作。

这次 o1 一个比较大的意义是，它通过在推理端多花一些算力，或者说多花一些时间，最终表现出来的能力提高非常多。

所以综合来说，强化学习、chain of thought 还有 test-time compute 等等，每一个单独的 idea 之前都有了，都不是石破天惊，但 OpenAI 把这几个 idea 组合在一起，有的在训练端，有的在推理端，都用来提升 reasoning 能力，取得了很好的效果。

《晚点聊》：o1 发布后，大家讨论比较多的还有 “系统 2”。类比人类，“系统 1” 是快速反应过程，比如我们学会开车后，不用全神贯注也能开车，而 “系统 2” 是深思熟虑下判断，做决定或解决复杂问题的过程。test-time compute，是否可以理解成在模型推理阶段，强制按系统 2 的方法解答问题？

袁进辉：可以这么理解，原来大模型是来了一个输入后，神经网络只 inference 一次就返回结果。

现在是，问题过来后，先 inference 一次，再把这个结果结合 chain of thought 的提示喂给大模型，让它有一个琢磨反思的过程，叫 reflection。经过这样几次后，模型才把最终结果返回给用户，这确实很像人的系统 2，或者叫 “慢思考” 过程。

新矿被发现，但不改变 “训基础模型公司变少” 的趋势

《晚点聊》：test-time compute 被关注，也因为它显示出在推理阶段放更多计算资源，模型性能还会提升。OpenAI 的 o1 官方博客里有这样一张图（如下），英伟达 AI 科学家 Jim Fan 说这是 2022 年以来，大语言模型研究领域最重要的一张图。为什么证实 “在推理上铺更多资源能 work ” 这件事会这么重要？

袁进辉：这相当于证实了，原来还有一个这么大的矿，还没挖。

之前的 scaling law，主要是在训练阶段多放计算资源（模型性能会提升），这已经是共识。但任何方法都不可能永无止境，继续优化训练的边际收益已有衰减的迹象，相当于再挖之前的矿，收益没那么高了。

而在推理阶段做 reflection，这是以前没做过，或者没人实现得这么好的，o1 展示了在原来没怎么挖掘的地方，还有很大收益。当然，它也会经历一开始收益很高，到一定阶段后收益衰减的过程。

《晚点聊》：这会怎么影响英伟达的业绩？o1 的方法如果被追逐、普及，是否意味算力需求会上升？

袁进辉：总体上，o1 无论在训练和推理阶段，都意味着更多算力。

首先通过强化学习合成一些新的数据，需要新的训练，训练模型的算力和可用数据量成正比。

更大的增量在推理端，原来 inference 只计算一次，而现在是多次，假如平均要调十次单模型 inference ，那就是十倍的 inference 算力。

《晚点聊》：推理阶段计算需求变大，这很好理解。训练阶段的算力需求也和模型参数规模有关，这又和它的训练方法有关。

袁进辉：关于 o1 的训练方法，我的猜测是，原来训练大模型，是从网上收集自然数据，先做 pre training（预训练），然后做 post training（后训练）、 fine tuning（精调）、alignment（对齐）等。

现在是收集了自然数据，同时还通过强化学习获得一些合成数据，用这些数据一起做训练，简单理解是这样。

这又有多种可能：一种是把合成的数据和自然数据放在一起 training from scratch（从头训练），得到一个基座模型；也有可能用自然数据训了基座模型后，再把合成数据和一部分自然数据放在一起做所谓 continual training，甚至也可以在 fine tuning 阶段放进去。

也有可能会是一个复合模式：一个小一点的模型搭配一个更大的模型，比如做 reasoning 那部分模型可能不需要太大，AlphaGo 那种模型以前都是千万级或者亿级参数，就能做得非常好。

《晚点聊》：Jim Fan 也在 X（twitter）上分享，说未来的模型可能会分离成有一个小的推理核心 + 一个大的记忆很多知识的模型，后者回答一些常识性、琐碎性问题上。

袁进辉：有这个可能。现在各种可能都是猜测，有条件做实验的可以试一下。

《晚点聊》：推理端的算力用量变化已有一些数字可循，比如 OpenAI 现在给 Plus 会员的限制是 o1 preview 每周 30 次，o1 mini 每周 50 次，而 GPT-4o 是每 3 小时 80 次，差了大几十倍。这可以反推它们的推理成本差异吗？

袁进辉：从限制看没这么直接，限制的原因也可能是，技术还没那么 ready，OpenAI 给大家试用机会，但并不希望完全放开。

从 API 定价看更直接，4o 现在百万 tokens 差不多是 10 美元，而 o1 是大几十美元到一百美元。

《晚点聊》：考虑到 o1 现在成本还比较高，它可能在最快在什么场景被用起来？

袁进辉：最大的想象力还是这个 agent。可以把 agent 理解为一个 AI 员工，他能做 HR、程序员等等，当然这是和数字世界打交道的工作，如果要进入物理世界，还要结合具身智能。

Agent 之前一直受限于大模型 reasoning 能力不好，即使基于水平最高的 GPT-4 等模型，还是很多 agent 走不通，错误率会在多个环节解中累积（agent 要完成一个具体工作任务，一般要多次使用大模型，走完一个工作流程，要求每一步都正确才能完成），那现在 reasoning 能力的提升就有望解锁 agent 应用。

《晚点聊》：按具体行业或工种分，什么类型的 Agent 会最先起来？OpenAI 自己专门针对编程、数学、科学等 STEM 领域优化了 o1 mini，是否他们也认为辅助或替代程序员和一些初级研究者是最快的方向？

袁进辉：大模型辅助程序员，这在 o1 前就非常好了。之前 AlphaCode 就已经能写代码，最近又出现了 Cursor 等编程工具和自动编程方式。o1 的意义是在代码之外，在更泛化的数理、工程领域都能有一些探索。

甚至我看网上有人想让 o1 解决黎曼猜想，如果真能把这个问题搞定，即使花一个月，价值也足够高。

《晚点聊》：一个月很短。证明费马大定理，用了 350 多年。

袁进辉：所以 o1 解的不是那种常见问题，而是非常重要、高价值的问题，在生活中可能频度并不高。o1 代表了大模型往极限去探索的当前天花板。

《晚点聊》：当年 AlphaGo 在围棋上可以击败世界冠军，在数学问题上，大模型也能做到人做不到的事吗？

袁进辉：有可能，不一定是 o1 这种模型，也可能是针对数学做更多优化的模型。通过像 AlphaGo 那种搜索 + 反馈的方式，去空间里搜索解。这个空间会非常大，哪怕是下棋问题，如果要遍历空间中的每个点，可能今天所有算力加起来都不够。

但下棋也好，数学也好，它的解在空间里的分布都是不均匀的。模型有可能捕捉住这个解空间里的一些规律，就是解在什么地方出现的可能性更大，所以它有可能用更少算力，找到可能性更高的解，甚至找到人找不到的那个解。

《晚点聊》：刚才说了 o1 的有价值的应用方向，同时它现在也有明显应用短板，比如它很慢。OpenAI 展示的一个例子是，让大模型列举 5 个第 3 个字母是 a 的国家的名字，GPT-4o 回答只用了 3 秒（答错了），O1 mini 是 9 秒，O1 preview 是 32 秒，超过一个广告的时长。你觉得这是一个可以突破的限制吗？未来速度怎么优化？

袁进辉：我觉得可以优化，从过去技术的发展规律看，首先是看效果能不能达到。如果效果能达到，效率或计算时间问题是确定性会被解决的。

Inference 一次的时间只和 token 序列长度有关。所以以后可能会是简单的问题，它思考更少步骤，更快输出结果；复杂的问题，它才反复思索。现在会出现一个简单的问题，它思考了很长时间的情况，那说明 test-time compute 有优化空间。

《晚点聊》：除了慢之外，目前 o1 API 也有一些使用限制：每分钟只能 20 次请求，也不包括函数调用、流式传输，还有系统消息支持功能，这对开发者是个不便吗？

袁进辉：会有一些。我觉得这是因为 o1 的 reflection 机制是把多个 inference 组合起来，但在更多场景里，这种方式到底怎么能发挥更好？以及这个组合中，到底什么部分允许用户 DIY ？这些都还不那么清楚，所以要逐步释放。

《晚点聊》：硅基流动主要就是做 inference 优化、加速，帮开发者把大模型用得更好，你们已开始针对 o1 这类模型做什么准备？

袁进辉：我们依赖业内开源模型，开源模型还没有做 o1 这样的事。但现在已经可以为推理优化做准备了，Infra 层有很多机会：

比如一个复杂问题可分解成多个步骤，中间有些步骤可以并行开展，相互不依赖，那就可以同时做 inference，这能减少用户感知到的计算时间。

也有一些步骤可能相互依赖，要一步步多次尝试，如果能提前得到这些尝试间的依赖关系或者叫 graph（图关系），就可以发现某些 inference 是冗余的，其实不用做。这不仅能减少用户的体感时间，也能减少实际计算量。

还有个机会是，基于开源模型，用强化学习策略做各种垂类和领域模型。Infra 层怎么促进这种训练，也有文章可做。

《晚点聊》：反过来说，o1 又会消灭什么机会？比如之前 prompt 工程很火，现在是不是没那么有必要了？

袁进辉：o1 确实让之前手写的一些 prompt 没那么必要了。o1 文档里也提到了，有些东西模型已经做了，不要在 prompt 里再提了，相当于有部分 prompt 工作被自动化了。

《晚点聊》：o1 会对其他公司，尤其是中国公司的投入带来什么变化？据我们了解，今年年中开始，中国部分大公司和创业公司暂缓了训练基础大模型。比如一些自己有云业务的公司，它的 GPU 更多是租出去，而不是给自己训练模型，因为看不清继续训练的回报。

袁进辉：一方面 o1 确实开启了一个范式，一定会被其它大模型公司跟进，也包括开源模型。另一方面，你说的这个情况——做基座模型的人变少了，海外也有，不少创业公司也回归大厂了。

现在开源模型确实能力很不错。如果自己重金搞一个模型，在市场上又没竞争优势，确实算不过账。这就像大家都想摘树上的苹果，大模型就是一个梯子，原来认为，没多少人会造梯子，我造出梯子我自己去摘果实。

突然 Meta 说，它造一个梯子（Llama)，你们可以随便用，而且这个梯子还挺好，这样很多人就基于它的梯子去摘水果了，而你还在自己造梯子，还不一定比 Meta 的好，等造出来，水果已经被人摘了。

所以从理性角度，市场就会有这个调整。现在继续训基础模型的，要么是真特别有理想主义，一定要实现 AGI；要么是没有后顾之忧，资源非常充沛的公司。

《晚点聊》：o1 会改变这种氛围吗？是不是至少在接下来一个阶段里，各公司可能重新加大投入？

袁进辉：我不觉得不会。对想继续追求技术极限的公司，o1 确实提供了方向。但它不改变做大模型的人越来越少的趋势。

之前做基座模型时，大家没想到技术扩散这么快，以及边际收益比较快就越来越小。o1 出来后，也是一样的：技术也会扩散，边际收益也会从开始比较大到变缓。所以 o1 的出现并不会改变一些公司的决策逻辑。

《晚点聊》：由此带来的一个后果是，短期内，中国的 GPU 算力是否会有冗余？

袁进辉：原来很多公司想训练自己的基础模型提前做了算力投资，现在开始转型，确实可能把算力往外租，放到市场上流转。相比半年前，算力价格确实有比较明显的下降。

《晚点聊》：现在中国的 GPU 算力价格比国外还便宜，这说明什么？

袁进辉：一是训练模型的没那么多了，另一方面是国内电费更便宜，第三是国内算力的供给方比较分散，竞争更激烈。

总体上看，国内能训练超大型模型的算力集群还是稀缺的。但现在有决心继续投入这种规模训练的公司也不多了。然后推理的算力需求还没有这么快起来，有一个技术渗透，应用成熟的过程。

AI 应用开发未冷却，只是更分散、小微、个人化

《晚点聊》：上次我们交流是今年 1 月，当时大模型很热。过去这几个月，OpenAI 几个重要升级跳票，市场上开始有质疑大模型的声音。硅基流动每天服务开发者，你有看到热情冷却的迹象吗？

袁进辉：应用探索这一块，我没有感到变冷。大家对 AI 的价值判断没有变化，它迟早会无处不在，会非常有价值，我没看到有什么怀疑。而且随着开源模型出现，基于这些模型做应用的人越来越多。

之前非常热情做应用探索的，是一些有 FOMO 心态的大公司。最近我们能看到非常强的趋势是，个人开发者、产品经理、中小企业越来越多，他们是各个领域的毛细血管，几乎任何场景，任何工作环节，都有案例出现。

《晚点聊》：可以举一些例子吗？

袁进辉：以人从小到大成长过程为例。做小孩教育、小孩玩具的现在挺多，教小孩学语言、给小孩讲故事、做绘本。大一些就是工作场景了，不管是 Coding、娱乐、写作，还有陪伴都挺多。前一段时间，还有开发者做老人关怀应用，帮人写遗嘱。

《晚点聊》：做这些应用的开发者，都是什么背景？是不是越来越多也不是技术背景的？

袁进辉：比如玩具，有的是从传统玩具行业转型的，也有一些是互联网公司做产品经理的。

最开始大家认为只有像大公司或专门做大模型的公司一样，有完善的 AI 能力和团队，才有机会做产品探索。现在大家想用比较高水平的模型，基本都能拿到，而且还非常容易使用。所以只要在某个领域有产品和需求洞察，也可以做应用，模型训练、调优等都不太需要做了，这就使能参与 AI 应用探索的人群扩大了。

《晚点聊》：一方面你说应用热情未冷却，另一方面，创投市场去年预期的 AI 应用爆发好像也没到来，这是为什么？

袁进辉：这也是一种真实的体感。我观察到的是那种草根开发者，从非常小事情开始做起，他们有的也开始收钱了，每月收入几万块，但他们没有到投资机构投的门槛，特别是现在投资机构资金也比较匮乏。很多主动探索 AI 应用商机或产品的开发者也是用自己的钱做的。

当然也有快到投资门槛的。比如有一个产品叫捏 Ta，用户可以在上面按自己想法塑造二次元人物，和它交朋友，这些被塑造的人物之间也可以 social。这个产品的增长数据很好。

如果每天和开发者打交道，你不会感觉这个行业在停滞或变冷。

《晚点聊》：硅基流动自己的客户，调用最多的开源模型是哪些？

袁进辉：国内比较多的有通义千问、DeepSeek。通义千问从小到大，7B 到 70B 都有。DeepSeek 是 coding 能力很强，甚至有一些海外客户来调国内的 DeepSeek 模型，还有 GLM-4，能力也挺好的，不过我们没有 GLM 更高级的模型，那个没开源。Llama 国内的调用量并不大，海外是有量的。

《晚点聊》：你们客户的用户规模怎么样？

袁进辉：我们不能看到客户的用户规模，但能观察到 token 量。每天超几亿 tokens 或 10 亿 tokens 的客户是有一些的，这意味着每周活跃用户数是几十万。

这些应用爆发也有节奏，有过程。我最近看了钉钉总裁叶军的一个访谈，现在很多人在钉钉里面供应 AI 能力。他说了一个蛮有意思的观察：如果一开头就想做一个基于 AI 的大应用，希望特别多人来用，这种预期不一定对路。

相反，钉钉生态下存在大量看上去不大的 AI 功能，它们可以被用到钉钉的工作流中，下单使用的也是个人，付费决策很快。

AI 应用也可能是这种巷战：它无处不在，但每一处又没有我们期待的那么大。

还有一种可能是，这种小应用或者能力足够多之后，有些会逐渐成长成为我们期待的 super app，它需要一个过程。

《晚点聊》：现在看，手机智能助手有可能会是这样一个入口，苹果的 siri 结合大模型后，可以嵌入很多 App 能力，用户不用再在多个 app 间跳来跳去。

袁进辉：对，苹果的 siri、腾讯的微信，今天的巨大入口级产品看上去也有希望成为新的 AI 入口。但还没有看到一个全新的 AI player 出现，大家都在期待。

《晚点聊》：OpenAI 不算一个新的 player 吗？

袁进辉：以日活计算，OpenAI 和 Meta、TikTok、微信还有数量级差距。和苹果比，OpenAI 还处在被苹果整合的角色。一种猜测是，苹果、腾讯、字节这类公司血条够长，它们可能会逐渐追上最好的模型。

《晚点聊》：之前我们和昆仑万维 CEO 方汉聊，他总结了一个 “巨头递减” 规律——互联网浪潮诞生了一批新巨头；移动互联网浪潮，美国其实没有新巨头，一批中等体量公司后来也被 Google、Meta 等公司整合，中国现在要出现新巨头也越来越难了。当然这只是一种基于历史的归纳。

袁进辉：我们可以回溯这几个浪潮的技术本质。PC 互联网主要是做信息化，移动互联网还有线上、线下连通，新巨头都是在这个过程中抢占了一些场景。

但现在很难再想象出什么新场景，AI 这一次更多不是创造新场景，而是提升各个场景的效率。

《晚点聊》：这可能是因为我们身处其中，看到的是一个渐变过程。就像当年铁路替代马车，最初也可以看做是同一个场景，出行和运输，但一旦围绕铁路的技术体系被构建出来，又会长出一些新场景，比如美国希尔斯百货会用铁路邮寄卖表，以前很难有这种零售场景。未来会有多大变化，可能取决于生成式 AI 技术与互联网技术有多大差别，这也是逐渐发生的，现在很难在一个历史的远距离去观察这个过程。今天感谢袁老师提供了一个观察应用开发的视角，你提到大家开发应用的热情没有消减。

袁进辉：信心是足够的。只是参与其中的主体可能有了一些新变化，新来的人更小、更分散，是草色遥看近却无的那种感觉。只不过大家的注意力更多放在大公司身上。

题图来源：OpenAI