首页 > 科技快讯 > 算力卡不住大模型的脖子

算力卡不住大模型的脖子

晰数塔互联网快讯
2023-04-28 17:46

出品｜虎嗅科技组

作者｜齐健

编辑｜陈伊凡

头图｜6penAI

“ChatGPT的爆发确实早于我们的预期。”

ChatGPT问世之后，戴文渊和身边的同行们都迅速投入到了相关产品的研发中，一时间，围绕ChatGPT讨论最多的话题是：如何复现ChatGPT，以及围绕芯片算力的问题怎么解决，甚至是如果要实现一个AGI（通用人工智能，Artificial general intelligence），除了GPT还有没有别的方法。

虽然从2018年谷歌推出的上一代预训练语言模型BERT开始，戴文渊和他的第四范式已经在研究AI大模型了，但直到GPT-3出现时，整个产业界才作出判断：大模型将会到达一个举足轻重的位置。

作为国内最早一波AI产业逐浪者，第四范式创始人兼CEO戴文渊将ChatGPT形容为“横空出世”——这比他之前预想的时间节点要提前了一点。他清晰地记得6年前，AlphaGo给行业带来的震撼，并在采访中不断提及，GPT的进化速度比AlphaGo更加迅猛。

正在等待港交所IPO过会的第四范式，是国内为数不多的AI独角兽公司。其业务主要聚焦在B端市场的AI智能决策。今年2月底，第四范式在B端市场推出了聚焦企业软件开发和应用的大模型产品“式说”。

戴文渊坦言，虽然他们很早就开始研究BERT、GPT等AI大模型，但在GPT模型的商业化投入方面确实是追随者。“作为AI科学家，对GPT这样的技术我们肯定不能错过。但作为一名创业者，在三四年前，我还看不到基于GPT能力的商业化产出。”因此，多数AI公司或研究团队，在当年对GPT的态度都停留在“研究”而非“研发”。

AI从诞生的那一刻就是要提供“服务”的，其天生就具备商业属性。在大模型刚刚冒头的前几年，国内大模型研发的第一梯队中，也曾传出某公司CEO认为大模型看不到商业价值，差点把整个团队裁撤的流言。而像OpenAI这样执着于一款短期看不到商业价值的产品的公司，在成功之后自然也更具传奇色彩。

近日，在第四范式媒体开放日上，虎嗅与第四范式创始人兼CEO戴文渊进行了一次对话。以下是部分对话实录：

GPT爆发的速度比AlphaGo快得多

虎嗅：ChatGPT出现之后，许多AI从业者都进入了一种“应激反应”，他们或是在大模型里看到了重新创业的机会，或是在做新的布局。ChatGPT诞生，给你的刺激是什么？

戴文渊：业内有一些人是从BERT模型诞生就在关注大模型，直到GPT-3出现后，我们已经可以预见未来生成式预训练模型会有爆发的一天，但没想到会这么快。

ChatGPT出现之后，马上就建立了市场信心，这是ChatGPT给我们带来最大的帮助。从去年9、10月份时，很多人还认为生成式AI不靠谱，但ChatGPT出来了以后，整个市场就开始了从0到1的转变。再往后，很多人就开始推出产品，在市场上推动商业化路线了。

虎嗅：在ChatGPT爆发的这三个月当中，你和同行们都在讨论什么？

戴文渊：同行之间聊得更多的是技术，以及关于整个产业的问题。比如说如何复现一个GPT3.5？有没有可能做出GPT-4？以及算力的问题。到现在讨论得更多的是，我们如果要实现AGI，是不是一定要用GPT去实现，还有没有别的方法？

虎嗅：你的客户都在讨论什么？

戴文渊：在过去的几个月中，大家的认知都在迅速提升。去年12月问得最多的是“你听说过ChatGPT吗？”到今年2月，问的是“ChatGPT我们能不能应用它？”

在产业端，有些激进的人甚至还不知道ChatGPT能做什么，就已经迫切地要在业务中落地ChatGPT了，那个时候是 “市场在等产品”。差不多到2月，公司就必须把产品做出来，因为客户都在等你。

这其实有点像当年的AlphaGo。AlphaGo刚出来的时候，市场也不知道它是什么，GPT这次的发展速度比AlphaGo快得多，AlphaGo出来后的一年，很多人都还是“我不知道它是什么，我只关心对我有没有用”的状态。

然而这次，这种状态只持续了一个多月。大家很快就知道GPT大概能做什么，并且每天都会发现GPT能做的事情比想象得多。这次AI爆发的速度比AlphaGo快得多，带来的机会也更多。

通用大模型不是通往AGI的唯一方法

虎嗅：近期，国内厂商密集发布大模型产品，各种大模型之间差别大吗？

戴文渊：不能说没有区别，但都是基于GPT做的。虽然中国目前没有OpenAI，但可能还会有更多的大模型。

对于我们自己来说，不是去对标OpenAI，也并不是说OpenAI能做什么我就一定要做什么。比如我们的大模型也有画画的能力，但在画画能力上超越OpenAI并不是我们所考虑的。我们更重视发展那些经过我们的思考和判断后，发掘出来的用户需要的能力。

虎嗅：国内厂商密集发布大模型背后，也陷入互相挖人的竞争中，要组建一个AI大模型团队，什么最重要？

戴文渊：我觉得从顶层去看这个问题的话，最重要的不是去竞争某个人或某几个人，而是有一群志同道合的人一起，这样的团队才会有战斗力。如果某个团队全是靠双倍工资挖来的人才，那他的战斗力可能也会比较有限。

如果一个团队有共同的愿景，共同的目标。那这些人其实是挖不走的。对我来说，打造团队最重要的是“认同”。大家能否认同我们正在做的事，以及你是不是特别想把这件事情做成。

虎嗅：算法、算力和数据，这三大要素你认为应该如何排序？

戴文渊：数据最重要，但是这个问题要辩证地来看，数据充分到一定的程度以后，再多就不一定那么重要了。比如说《红楼梦》看过一百遍了，再多看两遍也没那么重要了。

其次是算力。大模型在算力方面是有门槛的。但是对于大厂，或者有一定资金实力的AI公司来说，大家还是能做到这个“牌桌”前的。作为中国公司，我觉得算力需要考虑的问题是有没有国产替代方案。

最后是算法，虽然我认为算法未来可能会有改变，但目前来看Transformer在很长一段时间内是比较固定的。但模型结构会有一些变化，例如模型的稀疏化。

虎嗅：现在大模型训练很多用的都是英伟达的芯片，现在业界更多讨论的是没有英伟达之后呢？

戴文渊：一段时间以来，中国大多数GPU公司走的路线，是通过牺牲显存、网络带宽的方式来追求计算能力的提升，迫近或者超过英伟达。但是对于大模型来说，我们其实需要这三者（计算能力、显存、网络带宽）的折中，这是一个技术路线的问题。从追求极致的算力，调整为追求三者的平衡。目前可能还需要一点时间，这段时间里国产GPU的性能可能跟英伟达有差距，但这个差距可能比想象中小。

通常情况下如果CPU的性能相差2倍，那么软件运行速度就会慢2倍。但是GPU性能相差2倍，大模型的参数量不会缩小2倍，会少1倍多。导致的结果是假设我用了比你差2倍的GPU，我能跑1000亿参数，你可能能跑1000亿多一点的参数。但对于大模型来说，1万亿参数和1000亿参数有本质的区别，“1000亿”和“1000多亿”，其实感受不到本质的区别。

虎嗅：听下来，这三者里所以大模型最容易构筑壁垒的地方是数据吗？

戴文渊：这个问题首先要理解通用模型和专用模型，通用模型就是培养了一个大学生，等到他开始工作了，在某一个领域积累专业的知识与数据，当他在一个行业或领域钻得足够深，就是专用模型。

所以数据的壁垒更适用于在垂直行业和领域，你的数据充分了，别人的数据没有充分，就形成壁垒了。

行业和领域的概念也有所不同。比如Photoshop是一个领域，或者说OA（办公自动化）系统、CAD（计算机辅助设计）软件是一个领域，在这个领域的数据会形成壁垒。

如果你用AI改造了一个软件，那么这个软件逐渐会变成一个领域模型。不仅仅是软件，也是一个模型。

从某种角度来说，我们认为可以通过改造越来越多的领域来实现一体AGI的路线。当你把全部领域都改造完了以后，就形成了AGI。很难想象通过一个大模型最后把所有领域的问题都解决了，那样的话模型量就太夸张了，可能现在的计算体系架构下，要付出难以接受的代价。

To C不是大模型落地的最佳场景

虎嗅：B端和C端谁会更快落地大模型？

戴文渊：在我看来To C和To B各自有各自的机会，短期来看To B可能会落地更快。

因为To B软件在交互上更需要，也更容易升级。To C软件的用户体验经过十几年的打磨，已经逼近用户体验的上限，而B端的企业级软件往往要面对更加复杂的策略和执行，堆砌十几层菜单和成千上万的功能也不算多。

比如抖音，他作为一个短视频平台，用户的操作只需要向上滑就好了，改成对话的形式，体验说不定还下降了。反观B端软件，我和一个合作伙伴聊天时，他给我们展示所使用的软件，下拉菜单甚至已经超过了屏幕的大小。这就给升级创造了条件。

To C可能是在生产力方面更有价值，比如AIGC制图，影视加工这些。可能本来要请很多技术人员，现在可以用AI代替了，那你的成本就比别人低，效率更高，或者SKU（品类）更多，这是To C的机会。

虎嗅：第四范式的大模型产品，目前的开发、版本迭代情况如何？与其他大模型产品有何异同？

戴文渊：“式说”的定位是“基于多模态大模型底座的软件开发平台”，主要面对企业开发，与其他大模型一样具备语言能力，但是更偏向于基于AI大模型重构企业软件，也就是AIGS（AI-Generated Software）。

我们认为，如果你要实现一个功能，通过鼠标点菜单点三下才能完成的，那么这次操作的体验基本上不会比通过语音交互来实现更好。所以用新型的交互模式去替代老的交互模式，会使B端软件的体验获得一个很大的提升。

你可以回忆一下自己企业内的报销系统、HR系统、OA系统，我们公司现在的报销系统也挺难用的。但是你试想一下，如果你在报销过程可以用聊天的方式完成。

你说：“我要报销”，然后你把发票拍给软件，大模型识别这是餐厅发票。

它问：“跟谁吃饭了？”

你答：“跟张三吃饭了”

它说：“我接收了。”

结束。

这种体验显然比现在的报销系统要强得多，这是用户体验方面的提升。

另一方面是开发迭代周期的提升。原先是菜单式的功能和界面开发，每次升级都是几个月起。而现在新的交互模式，入口被一个万能对话框取代了，界面已经不重要了。ChatGPT每天都在提升，但是你感受不到它的界面发生了什么变化。

以前是界面层面的升级，现在是数据层面的升级。数据层面的升级都是以天计的，像抖音增加一个特效，也不需要改抖音的界面。

这么看就是用户体验也提升了，开发者体验也提升了。

虎嗅：第四范式的大模型里提到了思维链COT的概念，它在大模型中是以什么形式存在的？

戴文渊：我们日常用到的软件，都是由一个个功能组成的，但我们用软件去完成任务的时候，不只用到一个功能。比如Photoshop，你在Photoshop里调图片亮度，这是一个功能，调对比度，也是一个功能。但是如果你想“把照片P好看点”，它就不是一个功能了，而是通过一个个功能叠加实现的任务，最后按照顺序执行，实现“把照片P好看点”。

这个利用不同功能，一步步完成任务的过程，就是思维链COT（Chain of Thoughts），是一个多步推理的过程。COT相当于是大模型当中的数据。你可以把AI想象成一个每天站在软件使用者背后的人，每天就看他干什么，看多了也就学会了。“式说”就是在用户使用过程当中，让AI去收集他的思维链，以思维链为数据，然后再来做微调和反馈，从而形成AI能力。

基于大模型的思维链，就需要AI有很强的推理能力。虽然没有Photoshop软件的能力，但AI有操作的能力，所以即便AI没见过这个软件，也可以利用COT去学习它的使用方法。

虎嗅：我们通常去评价一个大模型产品好不好，是看效果，那么大模型的落地效果要怎么量化？

戴文渊：最明显的量化指标就是“降本增效”。我举一个B端的例子，比如原来IT部门去迭代一个软件，需要10个人开发半年，现在可能两个人开发两天就搞定了。不说最后效果，就开发效率提升这件事就非常直观。对于企业来说，同样的人力情况下，本来只能开发2个功能，现在可以开发200个功能。

虎嗅：你一直提到B端的应用，安全对于ToB产品来说特别重要。现在各国家和地区也都在提及ChatGPT产品对数据安全的威胁，AI大模型在训练、应用过程中，如何保障数据安全？

戴文渊：在今天这个时间节点上，数据安全最关键的，特别是敏感数据的私有化部署，这个东西暂时是绕不开的。可能在过去可以基于技术做一些数据的可信交换，但是现在不是把数据给你，是把数据给GPT。

我们现在也在研究一些基于GPT的可信的联合计算，比方说基于GPT的联邦学习。这样的方向，我觉得未来是可期的。