数字人正在被百度内部视为带来增长的“关键武器”。
虎嗅独家获悉,百度内部预计将在2025年下半年加大对数字人项目的投入。内部针对数字人的评估与考核维度,主要以客户量(使用数字人产品的B端用户),用户量(观看百度数字人相关直播、短视频等内容的C端用户),以及由数字人带来的广告营销收入三个方面为主。
目前,百度的数字人项目隶属于百度电商业务(百度优选),由百度副总裁、百度电商总经理平晓黎为一号位。
另据虎嗅独家掌握的信息,百度电商在2023年成为一级事业部后,目前保持了持续盈利,而数字人是其最重要的收入和利润增长引擎之一,贡献了收入增长的大头。
百度副总裁、百度电商总经理平晓黎
今年618期间,百度电商推出了罗永浩“数字人”,被内部视为2025年的关键动作。而此前,百度创始人李彦宏也曾亲自体验过百度数字人相关技术,并对业务线表达了信心,他在今年4月百度Create大会上表示:“2025年最令人激动的突破性应用之一,就是AI数字人”。
值得注意的是,自2024年以来,李彦宏多次在内外部分享时,把百度文库(含网盘)和百度数字人两个业务视为百度“AI落地场景”的关键方向。而巧合的是,百度文库(含网盘)截至目前也保持了“自负盈亏、盈利状态”。有知情人士向虎嗅表示,这两个业务属于百度内“战斗力较强”的,因为持续盈利和展现出持续增长性,集团在加大资源供给。
在今年WAIC上,百度正式发布了新一代数字人技术Nova,让数字人进化成为一个多模协同且具备思考决策能力的AI应用。
近期,虎嗅就百度数字人业务发展的脉络、内部对于数字人趋势的判断、与其他大厂的区别等问题,和平晓黎进行了深入沟通,下附沟通实录(经删减编辑):
虎嗅:百度整个数字人业务,是什么时候决定开始做的?你们内部怎么看待这几年数字人的发展脉络?
平晓黎:最早是2022年底,当时大模型还没有出来。当时集团成立了电商事业部,让我来负责。我此前负责百度APP,主要负责信息流产品,当时还管百家号、管新闻类内容生态创作。做这些内容向的业务时,我接触了很多创作者,当时我就想,有没有什么AI技术可以帮这些创作者做更好的内容。数字人技术,其实是这个时候关注到的。我当时看短视频里面一些医生、律师的节目,就在想用数字人替代这些真人可能是一种很不错的方式。因为他们平时太忙了,不一定有足够多时间来做视频和直播。
2022年底,公司成立了电商事业部,让我来负责。当时电商行业里,直播电商已经非常火爆了。我当时就思考,数字人技术能不能来帮助直播。于是我让团队做了几个试水。但碍于当时做出来的“数字人”更像是僵硬的纸片人,效果确实不太行,它只是具备了一个初级的人形样子和TTS能力。
第一个转机是2023年初,ChatGPT发布了,很快百度自己的文心大模型也发布了。我很快找到我们的模型团队,请他们协助一起做数字人,希望大模型团队帮我们解决三个主要的问题:第一是之前数字人都是人工写脚本,现在希望靠大模型去生成脚本;第二是希望实现实时互动,数字人能和用户去真实的互动;第三是升级数字人的视觉和语音表现力。
我把2023年起基于大模型完成关键进化的数字人归类为2.0阶段,我们叫超拟真数字人。当然它是一个持续进化过程,2023年到2024年,我们都在不断完善:除了语言能力、互动能力、拟真声音这些技术要素,也包括了成本的控制与降低。2024年,我们基于超拟真数字人发布了一键克隆的功能,通过一个5~10分钟的视频片段,就能生成一个超拟真数字人直播间。
从2024年下半年到今年,我们在进入一个新的阶段,Robin定义其为“高说服力数字人”,这是数字人的3.0阶段。这个版本的关键点在于数字人的智能化能力,它已经是一个具备思考决策能力的超级智能体了。它的声音、动作、形象、语言可以实现如真人的协同一致性,目前市面上绝大部分的数字人,都没有完美做到,神形音容的匹配我们认为也是第三个阶段的另外的核心特征之一,它已经非常像真人了。
你看到的我们618罗永浩数字人,其实就属于“高说服力数字人”范畴。它本身有带货能力、有自己的决策和思考链,而且从效果上,它的单场带货水平并不低于真人。
这里面关键的地方,就是感知决策,数字人可以通过感知到屏幕前用户的反馈、信息,去实时决策、实时互动。我们这个罗永浩数字人推出后,很多人都觉得惊讶,觉得太逼真了。
但我觉得,这还不是技术和产品的终点。我们内部认为,数字人的技术能力还会进一步抬升,尤其是多模态大模型技术的发展,会继续推动数字人进化。下一代,可能是超越真人的数字人。
虎嗅:我还是想再追问一个回溯问题,你接手百度电商后,当时为什么会把数字人当做一个关键方向?
平晓黎:第一个因素是2022年底,百度决定建立电商BU时,公司是思考过自己到底有什么差异化优势,尤其是百度面临一个现状“没有特别多的直播生态”的前提下,我们的优势到底在哪?我们思考后认为,技术肯定是一个壁垒,因此当时就有一个明确的站位,要做“智能电商”。
这里有两个切入角度,其一是希望通过AI帮助用户更好的获得购物体验;其二是希望通过AI帮助商家降本增效,吸引商家用更低成本做更大量直播,从而丰富我们生态的供给。我们想做自己的电商闭环,让更多商家包括大量的中小商家,进入我们的生态。
第二个因素是,2023年年初,我在好几个产业带去拜访商家,我去看他们的直播间发现,这些商家的直播成本非常高,相比于传统货架电商,这些商家的运营成本增加了很多。这些交流和探访,让我很确信,用AI技术做低成本批量化是可以满足市场刚需的。
虎嗅:你刚才提及2023年初大模型给你的数字人产品带来了质变,当时你是怎么说服集团投入这些技术资源给你的?
平晓黎:我觉得这是百度一个特点,百度在做产品的时候是业务驱动。我们团队当时先拿出来整个思路,包括产品、运营、客户等等细节都想处理了,然后我去和集团汇报了想法,希望可以通过大模型技术推动数字人进化,从而带动电商直播业务。在讨论清楚市场需求和业务战略后,集团同意了,而且以“高优”模式支持了数字人项目。然后我们就跟集团的大模型技术团队形成了一个协同模式。
虎嗅:其实有一些大厂在做数字人类产品时,是技术团队牵头业务协同,你们好像是反过来的?
平晓黎:我觉得业务牵引非常重要,产品终究是服务于市场、服务于用户的,一定要从市场需求出发、从用户痛点出发。纯粹技术去牵引,他们可能会追求高精尖的技术,但高精尖的技术有时候不一定能解决真实业务场景的问题。
我团队内,业务运营、产品经理会成为整个数字人产品技术发展的牵引力,当然我会要求他们去知道技术的能力和边界在哪。业务和产品经理最大的价值是对于需求场景有深刻的理解,并基于这些理解去给出优化方向。
举个例子。之前我们和技术沟通,技术给出的技术方案是,要让商家到“绿幕”里录制,然后基于这个录制样片,去生成新的克隆体。技术觉得,这样录出来的底板最好用。但这显然不是真实的业务场景。哪个商家会去给你找个绿幕录制呢?这个门槛高到没有人会用。于是我们的PM明确告诉技术,就是希望通过已经播出过的直播画面或者已有的画面去生成。可以输入一段5~10分钟的“底板视频”(直播回放),剩下的需要技术去搞定。
再比如,当时有技术反映说,这些底板视频中,不能出现手遮挡嘴的画面。这显然也不现实,不能说手遮挡了一点嘴,你就生成不出视频了。为什么我们坚持PM主导,就是为了站在商家和用户视角去引导技术解决问题。
虎嗅:你们内部,业务说服技术是一件很轻松的事情?
平晓黎:倒也不是那么容易,但整体氛围是好的。CEO希望大家开放共创,从我们实操角度,我觉得“讲道理”是非常重要的,拿真实用户场景事实或数据来说话,然后充分讨论、达成共识。
比如这次罗永浩数字人直播的技术。这是我们3.0阶段的技术,在研发这代数字人技术时,PM会先给出顶层设计框架,比如希望数字人语音和动作匹配、有AI大脑可以根据直播间实时信号决策、可以调度多智能体协同执行任务等等。
比如我们希望这代数字人可以实现“神形音容一致”。技术看到我们这个框架后,最初说需要主播录制一个时长1小时、涵盖各种动作表情的视频,作为输入然后再根据新的剧本要求去生成。我们就告诉技术,这在实操上是不现实的,必须抛弃“传统绿幕录制”的思路。
我们讲了一个很简单的道理。绿幕录制出的底板视频,和真实的直播回放,其实是很不一样的。真实直播,主播充满激情、状态特别好。在绿幕里录制出来的,主播是完全没有这样的精气神的。作为底板输入,对主播的表现力也是有要求的,而只有真实环境下主播的表现力最好,作为下一步生成的输入效果会更好,我们也据此做了AB数据验证,证明了这个判断。
当然,我觉得这里面还有一个关键点,就是业务不能拍脑袋提要求,你必须要理解技术的能力和边界。但这可能需要一些小技巧,比如业务有时候要“逼”一下技术,才能真正了解到当下技术的边界在哪。以及有的地方,并非靠技术而是要靠业务本身的运营能力和交付能力去弥补提高的。
虎嗅:能感觉出来,PM其实是你团队里很重要的一拨人,你大概有多少PM参与到数字人里?
平晓黎:大约几十个。这里面有一些核心是从2023年一路参与数字人项目成长起来的。
虎嗅:你们是怎么设定自己的目标的?百度内部是如何去评估数字人这个项目,它的评估维度是什么?
平晓黎:首先肯定是用户量维度的,我们现在也不仅仅把数字人用到电商业务里,包括一些数字分身业务,数字人也在做。公司对数字人的期望,也是希望它能成为一个非常有影响力的AI应用,去服务全行业。
另外一个是收入相关的。数字人非常有力地推动了在线营销广告收入的增长。它现在起到的作用很明显,公司对它的预期还是挺高的。
虎嗅:数字人这个项目的成本,是你团队自己承担还是?
平晓黎:对,它纳入到电商业务事业部里面,电商业务事业部的收入、利润都有明确的要求。我们数字人做训练的卡、成本都是我们自己承担的。我作为这个BU负责人,也会去跟公司财务对每个季度、年度的目标。BU是一直持续盈利的,可以覆盖数字人的基本成本。
2024年Q3开始,数字人的收入增长就非常快了,当时我们发布低成本克隆这个功能,它的规模就起来了。这里面教育类、大健康类、水果生鲜类客户都明显增多。今年我们拓展到了汽车、医生、律师这些场景。
虎嗅:那下半年,你们关于数字人会有什么新的目标或者考核维度吗?
平晓黎:主要还是用户量,这里面还有开播量,就是数字人商家的开播量;以及收入。我们还会增加一些用户指标,比如说看播量等。
市场热度起来后,我们今年重点肯定是要把新一代数字人技术Nova平台化,并开放给全行业。其实今年年初,CEO对数字人的发展就提出了新的要求,我们希望让尽可能多的人用我们数字人的技术、产品。我们整体上的判断是,在一些场景和赛道上,数字人是可能超越真人的。我们今年其实整体的方向都是基于这个年初的判断和规划。
文章标题:独家 | 对话百度副总裁平晓黎:深度复盘数字人业务逻辑
文章链接:https://www.huxiu.com/article/4640278.html
阅读原文:独家 | 对话百度副总裁平晓黎:深度复盘数字人业务逻辑_虎嗅网相关推荐
独家 | 对话百度副总裁平晓黎:深度复盘数字人业务逻辑
对话百度百度副总裁
平晓黎:百度App日活超1.9亿 百度搜索市场份额超80%
百度平晓黎:智能电商时代,人人都有智能购物助手,商家都有智能经营帮手
App整改前夜,百度宣布提拔3位副总裁和51位总监
百度副总裁曹晓冬正式接管YY,36亿美金值不值?
36氪独家|对话黎辉:瑞幸的剧本写了一年半,大部分人看不懂新事物
百度大裁员内幕:全员会上宣布,直播业务或被裁90%,高管曹晓冬将离职
一场没有“罗永浩”的直播,为百度AI正名
最前线 | 百度晋升3名80后副总裁 ,内部人士称“条件严苛、主推年轻化”
网址: 独家 | 对话百度副总裁平晓黎:深度复盘数字人业务逻辑 http://m.xishuta.com/newsview139732.html