首页 > 科技快讯 > 东哥数字人如何跨过“恐怖谷”

东哥数字人如何跨过“恐怖谷”

晰数塔互联网快讯
2024-04-23 20:55

刘强东AI数字人在4月22日下午第三次出现在京东采销直播间。

和4月16日、19日东哥数字人直播相比，4月22日的直播增加了数字人助播以及多机位切换。京东云言犀负责人向虎嗅透露，接下来团队的长远目标是希望打造出能够“深度还原思想、认知的数字人”，在这一计划中，数字人不仅可以像真人一样带货，甚至可以像真人一样分享对世界的深层认知、能够传递更真实的感情与情绪。“但这可能需要更长的时间。”

有分析人士向虎嗅指出，眼下摆在京东数字人面前的“短期”挑战可能并非技术侧。“京东肯定是希望数字人技术给更多品牌方提供服务，在这个过程中找到更多技术落地场景是关键，一方面是数字人到底能够给京东直播间带来多大的增量（即有多少品牌，愿意选择数字人带货），另一方面在非直播场景京东数字人能否有更广阔的想象空间。”

另有AIGC资深从业者认为，目前在国内数字人直播领域，“表情模拟和动作丰富度，是两个技术核心考察点。具体来说，是唇形以及动作仿真模拟。目前国内垂直于这一领域的技术型公司有硅基智能等代表，而在互联网大厂中，京东、阿里、字节等都在布局和发力相关技术。”该人士认为，整体看这个赛道的关键竞争点依然是三要素：算力、算法以及数据，“互联网大厂中，京东的底层优势是数据。”

京东云言犀负责人告诉虎嗅，4月16日直播后，有多个品牌找到他们询问合作的可能性，这也让他有了一些新的思路。“现在很多科技圈、车圈、互联网圈CEO开始做短视频、直播，在这个风口里，数字人技术可能有很多可以尝试的地方。”

东哥为何自己上？

虎嗅获悉，在2023年下半年，京东云言犀团队基于言犀大模型升级了数字人产品，并尝试了零售、金融、健康等多个领域。当时，京东云言犀数字人直播主要发力的是零售，从带货数据和互动指数看，这一系列直播的表现超过预期。

这段早期的“测试”，让京东内部对于数字人直播这件事的兴趣和重视度更高了。“大约在春节前后，团队想尝试一下英语直播，因为我们此前推出的几个数字人都是做中文直播，想试试多语言。”京东云言犀负责人表示。

2024年春节后，京东云言犀团队开始发力推广数字人产品，他们希望找到一个让京东数字人技术和产品成功“出圈”的方法。讨论后，他们决定大胆一点，让老板试试。

京东云言犀算法总监向虎嗅描述了这一过程：刘强东配合拍摄了视频素材，在“外形”生成后，京东云言犀再通过大模型去生成了刘强东数字人的声音。在完成外形和声音的测试调整后，京东内部就开始进行直播策划了。

4月16日刘强东数字人第一次直播时，京东云言犀希望做一次图灵测试。他们想了两个方案：第一个方案是，同时做两场直播，但一开始不说是数字人，看看用户能否分辨出；第二个方案是，对外宣传“刘强东要直播了”，但两场直播都是刘强东数字人，看用户的接受度。

经过反复探讨，最终团队选择了第二个方案。

“我们最关注的是120秒挑战。我们通过数据分析以及心理学研究，很清楚用户看到一个形象时，前120秒至关重要，如果用户在120秒内发觉这是一个特别假的形象、或者对这个形象产生厌恶，往往会不再消费。这也是常说的恐怖谷效应，我们想测试的关键点是：120秒内，用户是否会出现恐怖谷效应。”京东云言犀负责人向虎嗅表示。

从4月16日直播的数据看，京东云言犀的120秒挑战是过关的：在直播的第一小时内，总GMV达到5000万元。“我们发现，很多用户似乎没有意识到这是数字人。”京东云言犀负责人说。

目前处于第二阶段

据京东云言犀负责人透露，眼下言犀数字人发展到了第二阶段。“第一阶段，是像真人看齐，这类数字人可以在黄金时段之外直播带货，这些数字人可以对产品进行清晰的介绍；第二阶段可以媲美真人，并承担一些独立任务，比如在黄金时段讲解爆品；第三阶段的数字人要融合真人的文化背景和思维逻辑，可以视为真人的数字分身。”

虎嗅获悉，京东云言犀数字人技术会根据不同的场景，采取复合技术方案，其中有两个常见的技术路线：其一是完全端到端的生成，即在生成数字人过程中并不在任何环节进行显示建模；另一种，则是上文提及的利用一张照片或者3~5分钟视频素材，对人脸建3D Mesh模型，然后再去控制他的表情、唇型，然后再做纹理的渲染。这两个方案其实团队在不同场景里都会去用。

最大的技术难点，是大姿态：即数字人拥有复杂的唇形、仿真动作、微表情。“如果想实现大姿态数字人，首先会遇到光线挑战，视觉上很容易发现打光不均匀，会让用户觉得数字人身上一块白一块黑；以及会遇到唇形挑战，这是核心难点，大姿态数字人并不会一直正对着镜头说话，你需要在各个角度实现拟真效果。”

“我们的核心技术思路是端到端：建模-驱动-渲染的一体化。和Sora的思路很像，但区别在于Sora一开始就聚焦于通用内容视频方案，而言犀大模型聚焦于人物视频生成。未来我们将可能参考部分Sora技术，按效果优先，逐步扩展覆盖的领域。”京东云言犀负责人说。

在这个路径中，模型的推理优化以及计算效率是另一个关键点。京东云言犀的大模型项目组里，有一个单独的战斗小组负责推理优化。相关人士告诉虎嗅，行业内常见的模型蒸馏和模型量化，一般是做bit4或者bit8，而京东采取了不同的策略，通过CPU，而非GPU进行推理，降低应用成本。

“原来在大模型里每一个模型参数应该是浮点数，一般是用32或64位来表示浮点数的一个参数的，但应用时浮点数一方面占的空间很大；二是运算比较慢，浮点运算相对比较慢，所以我们做量化就是用一个八倍的整数来近似模拟一个16位的浮点数。甚至我们可以做到用四位就可以来模拟一个参数。这样一方面使得模型的大小会变小，同时使得整个运算速度会极大加快”上述人士表示。

有AIGC领域资深从业者告诉虎嗅，目前国内可以做云端数字人服务的公司并不少，而在文字合成声音等领域，大部分头部互联网公司的实力相近。“从技术和落地看，京东言犀数字人在推理优化是有优势的，而其海量商品数据对于数字人产品是一个关键助力，它可以针对不同产品去更快速、高效地做优化。”

尚需解决的挑战

互动能力升级以及挖掘更多商业化场景，是京东云言犀数字人尚需解决的。

过去几次直播，京东云言犀团队和京东采销直播间一直深度协作：简单来说，京东云言犀团队负责数字人技术、呈现，并根据每一次直播的效果去优化，比如第三次直播时刘强东数字人的互动效果比第一场直播明显更好；而京东采销直播间则负责选品、运营等一系列“业务侧”工作，过去三场直播中京东采销直播间在选品上以平台爆品为主。

在互动方面，目前京东云言犀数字人尚无法媲美真人互动。在过去的几次直播中，除了通过文字弹幕用户留言外，刘强东数字人有时会针对一些共性问题做回答。但相比于真人直播间常见的“插科打诨”、“玩梗互动”，目前的数字人尚显“稚嫩”。“比如很难像董宇辉那样，针对一个产品，突然有了灵感，开始将文学、文化，目前还无法做到这一点，也就是很难让数字人有真正的思想与意识。”

另一个挑战是场景。

据京东云言犀团队人士透露，他们目前在直播之外，在短视频等领域也服务了一些B端客户，比如在一些地产公司里，会通过数字人自动生成讲房视频。不过相比于想象中能够落地的场景，目前真实服务的场景相对有限。

618或成为京东云言犀数字人的“期中考试”，据悉京东内部已经对数字人在618期间的表现给予厚望，而AI也被京东CEO许冉视为2024年618的关键点。言犀数字人能否成为京东的关键引擎？一个多月后即将揭晓。