首页 > 科技快讯 > 对话火山引擎谭待:马拉松才跑 500 米,要做中国 AI 云第一

对话火山引擎谭待:马拉松才跑 500 米,要做中国 AI 云第一



“规模决定一切,最终牌桌上一定有火山。”

文丨贺乾明

在字节负责云计算业务火山引擎 5 年,谭待变得更从容了。要来这里时,很多朋友都劝他慎重:字节比同行晚了 10 年才做云计算,肯定起不来。那是他压力最大的阶段。他说,现在朋友们谈起火山引擎,会说做得还可以。

火山引擎交出了亮眼的成绩单。据市场调研机构 IDC 统计,去年国内云端大模型调用量,火山引擎一家占了 46.4%,比二三名加起来都多。去年 12 月到现在,豆包大模型平均每天处理的 Token 处理量翻了两番到 16.4 万亿,已经逼近国外的科技巨头。

谭待说,除了火山引擎用技术优化压低了大模型价格,豆包 App 也帮了不少忙,“很多客户都会拿着跟豆包的聊天 Case 找过来,问火山引擎能不能在企业场景中实现类似的效果?”

他判断 Agent 是火山引擎更大的机会:过去的云平台为网页和 App 开发设计,需要程序员理解业务,定义规则和算法,然后驱动数据做事,上限就是所有人的时间总和。现在 Agent 成为主体,模型可以自己思考、规划、编排流程,自动执行解决问题,上限远高于 App 时代,“我们正在加码加班做好准备”。

6 月 11 日,火山引擎举办春季 Force 原动力大会,推出 MCP 服务、提示词工具(Prompt Pilot)、知识管理系统、强化学习框架(veRL)等为 Agent 定制开发的套件,并宣布根据 “输入长度” 区间给 Agent 调用的思考模型定价,“综合成本只有豆包 1.5 深度思考模型或 DeepSeek-R1 的三分之一”。

“模型使用成本要降下来,才能推动 Agent 的规模化应用。” 谭待说,经营云平台最重要的是规模要大,“规模大了,服务器多、负载高,就会对技术有很高的要求,会强迫我们做好各种事情。”

这个判断也让他敢在 2021 就定下 1000 亿元的年收入目标,那年中国云平台第一的阿里云年收入只有 600 亿,大模型浪潮还没有踪影。给他信心的是,算上字节整个集团的业务,火山引擎能调度的计算资源规模不比阿里云少。

现在看整体的云计算市场,火山引擎的份额也不在前三。但谭待的信心更充足了,“马拉松刚跑了 500 米”,未来市场空间最少会扩大 100 倍,火山会持续保持国内 AI 第一,在传统云服务的存量市场持续增长。

“这几年 AI 快速普及,我觉得挺幸运的。” 他说,只要世界和平,经济发展,年收入 1000 亿肯定没问题。

本周,谭待接受《晚点 LatePost》访谈,详细分享了火山引擎如何迅速抓住大模型机会、对 Agent 发展的思考,以及火山引擎过去 5 年的发展经历和攒下来的经验。

“规模决定一切,最终牌桌上一定有火山”

晚点:火山引擎上线 5 年了。刚开始很多从业者都不看好你们,为什么你们觉得可以做?

谭待:刚开始做火山的时候,管理层就提过一个类似的问题:我们做的晚,为什么还有机会?

我们当时的逻辑是,云是一个很大的赛道。跟国外相比,国内云计算在 GDP 里的渗透率还很低,这意味着有很大的空间。

晚点:你们刚开始主要对外提供推荐系统服务。后来全面进入云计算领域,瞄准的方向是云原生,发展并没有特别快。

谭待:那个市场是一个存量的市场,增长就是慢。

晚点:火山引擎刚开始定的目标是做中国第四朵云。现在来看,你们是把目标定高了,还是低估了难度?

谭待:第四朵云是有时间期限的,多用几年,我们还是有信心的。最后还是规模决定一切,最终牌桌上一定有火山。

现在 AI 就带来了一个新赛道,我们可以很快做到第一。存量赛道我们可以一点点往上走。

晚点:火山在 AI 上投入很激进。你们怎么评估这个机遇的?

谭待:火山引擎很早就把 AI 当做重要方向,做的确实还可以。刚开始做火山的时候,管理层还给我布置了一个作业:想象一下十年以后的云,也就是 2030 年的时候,跟 2020 年有什么不同。

这个问题,我想了很久。我隐约觉得,不同肯定是因为技术迭代。但什么新技术呢?那时有很多,区块链、元宇宙、AI 等等,我觉得最有可能的还是 AI 。

当时自动驾驶开始上 Transformer 架构了,对云端算力有很大需求。我们就从自动驾驶公司开始,比如理想、吉利这些。然后又接触了很多 AI 创业公司,比如 MiniMax、智谱,然后发现大模型起来了。

我就感觉那个问题的答案自然就来了。这几年 AI 快速普及,我觉得还是挺幸运的。

晚点:为什么说很幸运?

谭待:AI 公司的需求不小,但要求也很高。22 年就需要把几千张 GPU 做成单一集群做训练,还是很有挑战。行业里面很少有公司做这样的事情。但抖音是有的,推荐、广告系统模型都很大,只不过它是稀疏的模型。

这里面有一个很重要的点,火山成立有一个原则,一定是要内外技术同源,把最好的技术拿出去。这看起来理所当然,但不容易做到。很多云平台最后都会搞一个内部业务上云。这就说明,他们云业务和内部体系是分裂的。

我们在组织上做了很多的设计,确保不分裂。这样的好处是,我们推出机器学习平台时,就具备真实环境中大规模训练的经验。

很多公司选择火山,不是因为我们有卡,而是因为我们能够稳定地把模型训练出来。

晚点:你们在 2022 年就看到 MiniMax、智谱的需求提升,有建议公司尽快做大模型吗?豆包大模型出来的确挺晚。

谭待:没建议。很快 ChatGPT 就出来了,就不需要我建议了。

晚点:同行都在 2023 年推出大模型服务,你们不着急吗?

谭待:创新肯定是不能规划的。我们还是希望把模型做好了再对外推。国内的模型也都是 24 年才逐步成熟。抢跑几个月没有意义。

晚点:听上去你很从容。这么多年压力最大的是什么时候?

谭待:刚开始做火山的时候。我原本是做技术的,没有经营过业务,也没有管理过特别大的团队。

晚点:那为什么字节的高管会让你管,而不是找个更有经验的云计算行业高管?

谭待:可能是觉得我很有热情,也有潜力(笑)。就我本身而言,这跟我的职业规划有关,我原来在百度很快就做到 T11(工程师最高职级),也想转型做业务,要跟技术强相关,做 ToB 基本是唯一的选项了。

在云计算行业做了很久的人,并不一定对字节有信心。我面试的时候,一些有经验的朋友跟我说:字节肯定做不起来。现在他们会跟我说,火山做得挺好的。

晚点:你们最大的竞争对手是谁?

谭待:挺多的。排在我们前面的,都是很有力的竞争者。

晚点:你们要做第一?

谭待:国内 AI 这一块,我们的目标肯定是第一。市场空间未来可能会扩大 100 倍,保持第一还是很有挑战的。

晚点:火山引擎有个 1000 亿的收入目标。什么时候定下的?

谭待:21 年左右写 BP (商业计划书)的时候。当时判断这个业务周期很长,就不写 3 年 BP 了,写个 8 到 10 年的。

晚点:为什么是 1000 亿?

谭待:云是一个很大的市场,要取得一定的份额才有价值。

晚点:火山引擎去年收入 100 亿,今年冲刺 200 多亿。千亿目标进度条现在只有 25%。距离你的目标剩不了几年,能做到吗?

谭待:得看增速,这个速度能保持下来的话,应该是可以完成的。

晚点:但收入规模越大,增速就会越来越慢。

谭待:是慢,但肯定也会增长。因为 AI 这个市场会足够大。

晚点:云服分成两个市场,一个是 CPU 为基础的传统云服务,一个是 GPU 为基础的 AI 云服务。你们的 1000 亿怎么分?

谭待:GPU 会占大头,至少要超过一半。

晚点:你之前有个判断,ToB 行业头三年的事情,就会决定八年后的格局。从 ChatGPT 到现在也快三年了。你们还有哪些重要的事情没做?

谭待:Agent 今年可能才是元年。那么 AI 云原生这些事情,从开发范式到底下技术、安全、数据都会有变化,这些都要加班加码做好。

晚点:你今年的 OKR 是什么?

谭待:很简单,AI 做第一,增加存量市场份额,把组织做好。这个 OKR 我写了好几年了。

晚点:今年有什么新变化吗?

谭待:你可以看我们机场广告,原来写的是:火山引擎,你的下一朵云。马上我们就会改成:火山引擎,你的 AI 云。

我们现在就是让大家认识到在 AI 时代,火山是最好的选择。

晚点:如果 10 年的期限到了,火山没做到 1000 亿收入。你觉得会是什么没做好?

谭待:只要世界和平,经济发展,我觉得肯定没问题。

马拉松才跑 500 米,豆包 App 出了不少力

晚点:IDC 统计,去年国内大模型调用总量中,火山引擎占比 46.4%。这包括豆包、即梦等字节内部应用的消耗吗?

谭待:不包括。分子、分母都是外部的。

晚点:你们对这个成绩满意吗?

谭待:谈不上满意和不满意。这个事太早期了。我跟团队说,马拉松才跑 500 米,别取得一点点小成绩就满意了。之前我们定目标的时候,就是超过 40%。

晚点:你们在去年 5 月才发布豆包大模型,比同行都晚。为什么敢定这么高的目标?

谭待:我们的判断是,这个市场会增加十倍,比人家晚半年无所谓。如果只涨 50%,晚半年确实太难了,你得把存量抢过来。全是增量那无所谓。

晚点:有一些同行说,字节有很多 GPU,火山引擎的市场份额是用亏钱换来的。

谭待:我们是有毛利的。MaaS(模型即服务)是一个赚钱的生意,毛利率在所有云服务产品中算比较好的。除掉数据库,国内没什么赚钱的 PaaS,像容器化什么的服务,都是买 IaaS 直接送的。

晚点:据我们了解,你们给大模型定价的时候,是用倒推的逻辑,假设未来调用量达到一定程度,就能盈亏平衡。所以会先降价吸引客户。

谭待:假设我三个月后能把成本降下来,用那个价格对外提供服务,也是合理的吧?

晚点:DeepSeek 说自己 API 服务的毛利为 85%(成本利润率 545%),你看到有什么感受?

谭待:它是一个理论值。他们的确有各种优化点。不过算力需求有波峰和波谷,波谷的成本是大头,他们把波谷的成本拿走做训练了,所以那时候成本很低。他们也没有算 SLA(云平台服务客户的协议,代表对客户的承诺),波峰高的时候可以跳票。

我们去掉了那些偏理论的点,跟内部比了一下,发现做得的确还可以。他们也帮我们澄清了一些事情。去年我们降价,好多人说我们亏本打价格战。我还专门发朋友圈解释,说靠技术做到的。DeepSeek 证明靠技术的确可以做到。

晚点:为什么你们说靠技术降成本别人不信,DeepSeek 出来说就有人信?

谭待:DeepSeek 是开源的,大家可以做一些复现。

晚点:那你会想让豆包开源吗?

谭待:我没有偏好。最重要的是模型是不是能做到最好。客户不会在意你是开源还是闭源。就算开源了,大家也倾向用云上托管的版本,自己搭太贵了。

晚点:所以低价是你们拿下超 40% 市场份额的主要原因?

谭待:低价只是刚开始对我们有帮助,现在大家的定价都差不多。首先还是模型效果要好。另外我们还有一个很大的优势,是 C 端(个人消费者)B 端(企业客户) 协同。

字节的 C 端产品有大量用户,会大规模调用模型,能帮我们把服务做好。同时,还有很多人会拿着我们 C 端产品的 Case 找过来,说想用在业务中,火山能不能做类似的效果?

我经常开玩笑说,企业 AI 转型第一步,就是董事长先下载一个豆包 App。我发现好多人都认这一点。所以大模型一定要好。不能他们用了后觉得很挫,可能以后就不考虑我们了。

晚点:效果好决定一切?

谭待:这只是模型好的一方面,其他还有稳定性强,吞吐高。大家容易忽视的是模型的 TPM(Tokens Per Minute,每分钟处理的 tokens 数),我们能到 500 万。

扩大 TPM 要更多的成本,也考验调度系统。所以有同行取巧,说价格追平了我们,把 TPM 限制得很小。如果客户想扩大就得加钱。

晚点:去年你们豆包降价的时候,就因为 TPM 低被吐槽。

谭待:当时没注意到这一点,就用了跟同行一样的。我们一周后就把它放大了。后面我们一直默认把 TPM 做得很大。这是客户教我们的。云里面有很多这种细节,魔鬼都在细节里面。

晚点:云计算这种细节特别多、链条又很长的系统里面,怎么能做到最好?

谭待:最重要的还是规模要大。规模大了,服务器多、负载高,天然就对技术有很高的要求,就会强迫我们做好各种事情。我们内部很早就用 GPU 训练推荐系统,可以直接对外复用了。

规模大了后,做优化收益也很大。1 万台服务器利用率优化一个点,100 万台服务器优化一个点,收益差 100 倍。但要做的事情是差不多的。这个收益差异,可以让我组建强大的团队做得更好。

晚点:如果看整个云计算领域,不只算 AI 云,规模最大的还是阿里云。

谭待:只算云业务国内肯定是阿里云,如果按整个集团来算资源规模的话,我们不比阿里少。如果没有那么大的内部资源,再大的力也出不了奇迹,都没有让你练手的地方。

用模式创新继续推动降价,Agent 会突破 App 时代天花板

晚点:豆包 1.5 已经发布快半年了,现在你们发布新款豆包大模型命名 1.6,大模型迭代速度放缓了?

谭待:也不能说放缓。这一版与 1.5 相比有很大优化。2.0 会有的,我们希望大版本更新的时候变化更大。

晚点:一年前你们开发布会,大模型降价幅度非常大,比行业均价减少 99.3%。今年降价幅度为什么变小了?

谭待:去年国内很多人都在讲 AI 概念,但 AI 应用很少,没多少人用大模型。主要原因就是太贵,有的模型比美国的模型还贵,两边人均 GDP 水平又不一样。

我们看到能靠技术把成本降下来,就决定一次降彻底,更低的成本能催生更多应用,可以把盘子做大。

想要继续降价,技术得有大幅更新,但它是有周期的。而且成本已经不算是 AI 应用创新的门槛了,更大的问题是怎么用好平台,做出来更好的应用。

晚点:那这次你们怎么把模型价格降到过去的 1/3?

谭待:主要是定价模式上的创新。深度思考模型出来后,解锁了很多场景,比如搜索。这些模型用起来挺贵的。

其实同一个模型,开思考和不开思考单位成本是一样的,主要的差别就是 context(输入内容)长度。我们发现,客户使用大模型时,context 长度分布有规律,大部分都落在 0 到 32K,然后是 128K、256K。

我们就决定不再给思考模型与普通模型分别定价,而是按照 context 长度做区分,动态计价。我们相信,这会跟去年我们大幅降价一样,引领行业往这个方向发展。

晚点:你们今年介绍了很多 Agent 方面的进展,比如做全链路 Agent 开发工具、改进数据基建,看上去跟同行没太大差别。

谭待:刚才说的计费方式变化就是个明显的差别。这样定价也不是谁都可以做。首先你得服务过很多的客户,才能知道 context 的分布规律。资源调度也要进一步优化,把不同长度的 context 混在一起推理,会浪费资源。 我们把思考模型的 context 做到 256K,至少在国内是第一家。

强化学习是做好 Agent 的关键技术,现在业内用得最多的强化学习框架就是 veRL,这是我们开源的。那个 ve 就是 volcengine(火山引擎的英文)的意思。

另外,Agent 一定要用到 Coding(编程),让模型能自己写代码解决问题,这需要类似 IDE 的开发环境。国内大多数公司只是提供 AI 生成代码插件,这显然不够。字节的 Trae 应该是国内唯一定位像 Cursor 的集成式 Coding Agent。

晚点:Trae 是一个开发者工具,跟火山引擎做 Agent 有什么关系?

谭待:它背后的大模型用了火山上的。火山上的所有云组件服务,我们全部用 MCP 协议做成了服务,直接跟 Trae 打通,开发者做完开发,就可以直接调用云上的各种组件部署、运维了。

晚点:你们怎么判断 Agent 对云计算行业的影响?看到了什么机会?

谭待:PC 到移动再到现在的 AI,是主体发生变化。PC 的时候是网站,移动的时候是 App,AI 将来最重要的主体其实是 Agent。

主体不同,开发范式会变。PC、移动时代的各种架构,容器化、微服务都是程序员理解业务,定义规则和算法,然后驱动数据做事。Agent 是模型自己思考、规划、编排流程。

这就是我们说的 AI 云原生。过去的云平台是为 Web、App 最佳实践设计的,现在要围绕着 Agent 设计。

未来 Agent 和 Agent 之间会有一个网络,它们可以自动执行任务。App 都是供人使用,但全世界就有这么多人,每个人能花多少时间,算下来的总时长就是 App 的上限。

Agent 能主动执行任务,它工作的总时长,会远高于 App 的上限,就能创造更大的经济价值。这需要更多的云计算资源。

豆包模型调用半年翻两番,模型更新带动需求增长

晚点:你们这次宣布了一个数字,豆包大模型日均 Token 处理量达到 16.4 万亿了。这个算内部产品吗?

谭待:这个算的。

晚点:去年 12 月你们宣布的数字是 4 万亿,到现在翻了两番。为什么这么快?

谭待:这就说明 AI 在蓬勃发展,这个数字不仅代表豆包的速度,能说明 AI 的速度。

晚点:有人说是 DeepSeek 的爆发带动行业发展。让很多大模型公司都受益了。

谭待:DeepSeek 出来后,我们的确感觉到客户的热情提升了。主要是它破圈了。客户的增长,还是比较依赖模型能力提升。

晚点:从豆包大模型增长来看,哪些行业的客户的 Token 消耗量在提升?

谭待:最近半年有两个驱动力。一是深度思考模型出来后,带动 AI 工具类应用快速增长,AI 搜索、AI Coding 涨了接近 10 倍。

另一个是多模态模型,也催生了新需求。很多客户用它在线下巡店,看餐盘有没有放好、工作人员帽子有没有戴好等等。这半年也有 10 倍增长。

晚点:这种需求靠过去的小模型就可以做,现在用大模型更便宜吗?

谭待:用上多模态大模型,单次推理成本可能是增加的。但以前的小模型,一个场景就要训一个模型,训练成本很高,还不一定能识别全。现在用大模型,只需要 Prompt 就可以了。综合成本是低的。

晚点:这些都是模型迭代带来的变化。客户对大模型的态度有什么变化吗?

谭待:变化还是很明显的。以前你还得科普,现在不用了。尤其是今年。现在的矛盾点是,大模型能不能创造经济价值。如果这个事更明显,增长可以更快。

晚点:你们有碰到一些失败案例吗?

谭待:说失败不太合适,可以说是有挑战的案例。比如有监管要求的行业客户。他们上来就会问,能不能私有化?

所以我们这次大会讲了很多大模型安全的内容。我们有个产品叫 AI 密态计算,用硬件隔离出加密环境,用端侧的密钥解密。让客户有私有云的安全程度,又能访问最新模型,成本还低。

晚点:现在做大模型一体机的有很多,为什么私有化会是挑战 ?

谭待:想把大模型用起来,不能只有一个模型,还要有一系列工具。云上的工具都还在完善,怎么能指望一体机里面东西都是健全的?

而且公有云上可以用混合调度,把每一次 token 调用的成本摊薄。私有云的环境中,处理 Token 的成本要比云上的刊例价至少高 5 倍。 这会影响发展速度。

晚点:你们占了这么大的市场份额,现在增长也很快。你们总结了什么经验?

谭待:最重要的是建立机制。客户想用好大模型,需要做好 prompt、模型要精巧、有合适的 RAG 知识库。我们会组建专门的服务团队,和行业线团队做匹配去服务他们。

我们会把这些能力沉淀到一个工具中。比如这次我们推出的 Prompt Pilot,就是发现要做大量 Prompt Engineering 的事情,这太累了。

晚点:现在大家都在说,只要模型足够好,不需要太多提示词工程。

谭待:我觉得这完全是错的。应该反过来,模型更好的时候,提示词工程价值更大。当你把需求说得更明确的时候,更好的大模型其实能执行得更好。

晚点:一位云平台负责人跟我们说,云服务是多元化体系,客户想用什么模型,就要想办法去满足他们的需求。火山跟豆包绑定非常深,会影响你们增长吗?

谭待:我觉得这是两个流派。对自己模型没有信心,可能就会说自己是一个云平台,要支持所有的模型。我们对自己的模型特别有信心,就会倾向于做垂直优化。

那些很复杂的 Agent ,让它做好复杂任务,不仅模型要优化,背后的服务也得优化,还要准备好调优的环境等等。

我们能提供的最大价值,是垂直优化的能力,这肯定是基于豆包大模型的。有些客户的需求,甚至要在预训练阶段解决。 我不可能帮客户优化一个开源模型,我也没有源代码。

晚点:做垂直优化,你们也要跟研发大模型的 Seed、各种 AI 产品合作。这些都是不同的部门。你们有什么样的合作机制?

谭待:火山有专门的团队,可以参与到模型研发和产品开发中。字节做火山一个重要的原则就是技术内外同源,比如我们的基础设施就是复用一个大团队,保证体系能够协调在一起。

如果是分裂的,协作就需要公司的 CTO 来协调。但大多数 CTO 都不太了解底下的细节。在字节,技术负责人就可以了。

晚点:如果豆包能力提升很慢,做不到最好呢?

谭待:这是小概率事件。如果豆包能力提升很慢,公司自然会提高优先级去解决。

晚点:很多云厂商都在投资大做 AI 基建,比如阿里宣布三年投入 3800 亿元。你们怎么规划的?

谭待:我们不一定非要宣布花多少钱,客户需要算力的时候,我们能满足就好了。我希望默默把事情做好,给大家一个惊喜。

题图来源:火山引擎

相关推荐

对话火山引擎谭待:马拉松才跑 500 米,要做中国 AI 云第一
沈抖与谭待之争,撕开了云厂商的焦虑
豆包大模型再次大幅降价,火山引擎还在激进争夺市场份额
火山引擎发布自研视频编解码芯片
火山引擎的新产品,字节和 100 多家企业的大模型实验场
让企业拥有用得起的好模型,火山引擎给出一个更优选择
最前线 | 字节旗下火山引擎发布全系云产品,计划3年服务10万用户
火山引擎战略初现,字节跳动打造To B服务双引擎?
AI从科学到商业,火山引擎的少数派答案
普通人到奥运赛道跑马拉松,这是史上第一次

网址: 对话火山引擎谭待:马拉松才跑 500 米,要做中国 AI 云第一 http://m.xishuta.com/newsview137324.html

所属分类:人工智能