首页 > 科技快讯 > 上演计算资源“乾坤大挪移” 京东云凭什么打赢春晚红包保卫战?

上演计算资源“乾坤大挪移” 京东云凭什么打赢春晚红包保卫战?

虎年春晚,你抢到红包了吗?

“亲爱的观众朋友们,看春晚,打开京东APP摇一摇,分15亿红包和好物。” 2022年央视春晚,全国人民跟随主持人的口令,在一家人团聚一堂观看晚会的温馨时刻,抢到了一轮又一轮丰厚的红包及好物。

15亿元的总金额,刷新了历年春晚记录,与此同时,春晚红包参与人数也格外引人瞩目。根据本届春晚独家互动合作方京东发布的数据,全球华人参与京东APP红包累计互动量达691亿次。此外,京东还联合各大品牌送出了众多好物年货。在春晚40年历史中,这是第一次向观众派送实物奖品。

在中国技术领域,春晚红包互动项目一直都是一个“史诗级挑战”。2015年,央视春晚开始尝试与科技企业联手发红包,其十亿级别的流量曾经一度让宕机成为家常便饭。

而近年来,这一情况则有所好转。今年春晚,在红包与好物的双重考验下,京东APP在除夕当晚仍然保持了流畅体验,没有发生卡顿及宕机事故。而在这背后,则是京东云计算资源与技术实力提供的坚实支撑。

奋战在一线的京东云工程师

春晚保卫战:全球最大规模、最复杂场景的高流量并发实战

给春晚观众发红包,到底难在哪里?“世界顶流”的观看人数,自然是逃不开的话题。

在全球电视节目中,美国收视人数最高的节目当属超级碗橄榄球决赛,其2021年的电视观众人数为9162.9万人;在欧洲,则是欧洲杯决赛,2020年的观看人数为3.28亿人;放眼全球,最具影响力的国际足联世界杯决赛,2018年的观看人数则为11.2亿。

但在春晚面前,这些数字都显得相形见绌。2021年,央视春晚的直播用户受众达到了12.72亿人。其中,新媒体端直点播用户规模7.34亿人;而用户观看次数总量则达到了49.75亿次。除央视外,全球还有170多个国家和地区的620多家媒体转播了央视春晚。

12亿的观众规模,如果按照50%的转化率计算,也有6亿之多。而春晚红包互动的另一大挑战,在于庞大观众基数在短时间内的集中涌入。绝大多数参与红包互动的春晚观众,都会在主持人口播之后的几秒钟内涌入APP。其QPS(每秒请求量)可达到数千万、甚至上亿级别。

“这相当于让整个春运期间的所有旅客,都集中在同一时刻上12306网站,抢同一列火车的票;或是连续几年双11的活跃用户,集中在1分钟内一起‘剁手’。”有业内人士如此评价春晚红包的并发量数据。

更可怕的是,在春晚期间,如此规模的流量冲击还不止一次。今年除夕当晚共发起了7轮摇红包,主持人的每一次口播,都是一轮流量洪峰,也让春晚红包互动的复杂性进一步提升了至少一个数量级。

这无疑极大提高了春晚红包项目的技术保障门槛。2019年,得到App创始人罗振宇在跨年演讲中透露,得到曾经与春晚洽谈红包合作,但被对方婉拒:“上春晚要满足一个‘小门槛’——产品日活要超1亿。要不然,广告出来的那一瞬间,你的服务器就会崩掉”。

而在2022年,京东面临的挑战不限于此。今年1月5日,央视官宣今年春晚红包互动合作方花落京东。1月24日,春晚红包互动预约活动就宣告开启。这意味着,京东筹备这场红包战役的时间仅有19天。

以往,科技企业面对春晚挑战,大多选择通过采购、租用服务器的方式应对流量洪峰。在春晚海量的流量面前,服务器自然是多多益善。增加服务器,如同在网游中“氪金”,尽管简单粗暴,但确实十分有效。

但今年,面对超短的筹备时间,加之上游供应链短缺等原因,京东没有选择增加服务器这一老路,而是尝试在现有的计算资源基础之上,进行高效、灵活的调度配置,以“巧力”替代“蛮力”,直面春晚挑战。

春晚红包背后,京东云上演“乾坤大挪移”

2022年元旦期间,一些京东高管接到紧急通知,立刻返回公司开会。在这场高度保密的会议上,许多高管第一次知道,京东准备参与2022年虎年春晚的红包互动项目。

1月5日,央视官宣京东成为虎年春晚红包互动独家合作伙伴。与此同时,一场紧锣密鼓的技术协同备战随即在京东内部启动。

为了支援春晚项目,京东集团技术体系有超3000名技术人员参与了春晚项目的技术攻关与保障工作,除夕当天参与一线值守的技术保障人员近2000人,共有超万名技术人员协同作战。而就春晚项目本身,就有近600个需求被快速拆分,3000多个任务需要有效跟踪, 同时还要保证600多个上下游系统快速交付.. ...因此,这是一场超大规模的研发协同作战。

京东云产品研发部工程师讨论春晚项目

解决了人员的协同,春晚项目最艰难的计算资源调配,才刚刚开始。如何应对史上最具挑战性的春晚互动?在京东云技术团队看来,照搬 “堆砌资源”的传统解题思路是下策,第一,短期临时投入过大,与京东云长期追求的精细化研发资源管理理念相悖。第二,疫情导致的全球供应链紧张,让堆砌资源的客观路径变得行不通。

基于多年来支持京东618、京东11.11的丰富技术经验,京东云决定另辟蹊径,充分发挥云计算高弹性的优势,闯出一条新路。这条新路就是在不增加计算资源的背景下,对现有资源进行云端的灵活敏捷调度腾挪,实现快速变阵。

如何在资源零增加的基础上,保证系统的稳定运行,把用户体验做到极致呢?京东云有两手绝活——云原生数字基础设施和混合多云操作系统云舰,依托云原生数字基础设施和云舰,京东云得以秒级调度近300万个容器、超1000万核算力资源,以超高弹性成功登顶云计算领域的“珠穆朗玛峰”。

第一,京东云本身就建立在云原生架构上,运营着全世界最大规模的Docker集群、Kubernetes集群,以及最复杂的Vitess集群之一。全面的云原生化,让京东云可以快速适应不同地域、不同设备的部署环境,实现资源快速灵活平滑扩容,从容平稳地应对大规模复杂流量场景的挑战。

第二,所有容器都跑在京东云的混合多云操作系统云舰上,进行灵活实时的统一资源调度。云舰内嵌的智能调度系统,通过人工智能算法,对应用的资源使用情况进行预测,弹性地对资源进行优化,将算力优先调度给需要高算力的业务中。每一条业务线的日常流量都存在波峰、波谷,而云舰内置的阿基米德平台则可以根据每一项业务的资源需求,动态调节资源量,以实现资源利用效率的最大化。

在春晚期间,这一技术被京东云云舰利用到极致。在主持人口播期间,云舰将绝大多数资源调配至春晚相关应用链路,保障春晚红包项目稳定运行,让用户抢红包不卡顿、不宕机。而在每一轮口播结束,用户则会涌入京东APP的各种业务应用,云舰则在分秒间再一次将计算资源调配至业务应用线路,保障消费购物场景的丝滑体验。

在整个春晚期间,主持人发起了7轮口播,京东云则在后端完成了14次模式切换。加之最初的资源池搭建及春晚结束后的资源池解散,在整个除夕夜,总计完成了16次对计算资源的“乾坤大挪移”,资源调配都在秒级完成。

与此同时,京东云也针对春晚用户的行为习惯及操作逻辑,进行了针对性的全链路优化。用户每一次访问操作的资源消耗,都被精准地优化、控制在最低限度。在此基础上,京东云在春晚正式开始前完成了7轮压力测试,在模拟场景下检验京东云的准备工作。

智能化系统分级也功不可没。京东云在全面容器化的基础上,依托全系统应用的自动化排序分级,自动完成非核心应用的占用资源缩容(如网格搜索服务、订单台账查询、APP购物车服务、结算网关、运费系统等上千种应用),为核心应用腾挪出足够资源,实现在资源一定的前提下,满足用户的核心需求。

在春晚期间,京东后端运行的所有项目都被划分为S、A、B、C四个等级。与春晚红包链路相关的项目被划分为S级,获得了最优先的资源保障权。用户账户、交易、支付等核心数据被列为A级,仅次于春晚红包链路。而其他业务则会在春晚的数小时内临时降级,以优先保障春晚项目的运行。

在云端,每一分计算资源被利用到极致;而在线下,各类极端黑天鹅事件也被京东云列入预案。春节前夕,京东云将柴油发电机开到了各个机房,并配置了足够支撑12小时的防冻柴油,以防临时停电;此外,京东云也协调了各个机房园区附近的施工单位,尽量避免在春晚期间动工,以免挖断光缆等意外出现。

2022年,春晚红包互动进入第8年。有了往年的经验教训,京东云与央视得以将各类意外情况列入预案之中。在京东云内部,即便是最简版的预案剧本,也有整整61页,机房专线中断、CDN过载、短信通道堵塞等极端事件都得到了演练,并制定了相关的备用策略。

按照往年春晚红包项目经验,春晚会吸引大量新用户下载、注册、登陆京东App,应用商店和短信发送通道等供应商也与京东云一同奋战,在春晚期间应对流量洪峰。以往应用商店宕机、用户收不到登陆注册验证码等现象也并未在今年复现。

此外,京东的物流、供应链团队,则完成了春晚项目的最后一重考验。今年是京东“春节也送货”的第十年,无论是用春晚红包购买的商品,还是春晚上领到的好物年货,都被及时送货上门。

打赢春晚保卫战,京东云收获了什么?

仅19天备战时间,不增添1台物理服务器,京东云用最有限的资源,完成了一场最具挑战性的技术实践。这对于任何一家云计算厂商,都意义非凡。

京东云的成功,背后反映的是对技术趋势的前瞻性预判,是京东云提前转型云原生架构的全面胜利。早在2014年,京东云就开始在生产环境内大规模引入容器化架构。近年来,京东云更是全面转型云原生架构,运行着全球范围内最大的Docker及Kubernetes集群。

除夕当天参与一线值守的京东云技术人员欢庆圆满完成任务

在云原生时代,每一个应用都被约束在独立的容器之中,可以随时根据业务场景需要,进行动态扩缩容。如果将物理服务器比作一艘巨型货轮,传统虚拟机相当于货轮内分割出的一个个货仓,货物在其中随意摆放,空间利用率有限;而容器化则相当于在一个货仓内放置了大量形态各异、大小不一的集装箱,后者不仅更适合装运货物,也可以更好地塞满货轮。

与传统虚拟化技术相比,容器化的灵活性更强,可实现规模化扩展,资源利用率也更高。在此基础之上,京东云将底层基础设施全面标准化,并开发了混合多云操作系统云舰,可以在秒级时间内,完成对计算资源的快速调度。

这些新技术成为了京东云上层应用的坚实支撑。如今,京东云已经打造了一个积木化的技术架构——在前端,基于云原生架构,云计算客户可以根据自己的需求快速拼接出最适合自身需求的产品方案;而在后端,京东云基于混合多云操作系统云舰。可以灵活地调度各类计算资源,高效、灵活、敏捷地满足客户的各类弹性、个性化的需求。

在紧急时刻利用现有资源实现转产的传统产业基建案例并不鲜见。在疫情期间,比亚迪、五菱等中国企业在几天时间内就组建出一条条口罩生产线,喊出了“人民需要什么就造什么”的口号。在制造业,灵活调度生产资源实现迅速转产,既体现了企业的担当,也考验着一家企业的技术能力。

数字化时代的云计算行业同样如此。如今,云计算早已走出“租服务器”的简单模式,行业正在由“帮客户上云”转向“把云上好”。相比之下,后者对于云计算厂商的技术实力提出了更高的挑战。京东云在春晚上展现的对资源精准腾挪的能力,在产业上云、政务上云的时代几乎每时每刻都在发生,只是在规模上与春晚不在同一数量级。能够在19天内服务好春晚这一史诗级项目的京东云,在面对各类常规项目时,自然也会游刃有余。

事实上,从最初几年春晚互动备战,用时几个月却仍无法避免抢红包中的宕机问题,到需要紧急增加数万台服务器才能扛住流量洪峰,再到今年19天内上万人的技术团队高效协同,不新增计算资源,仅凭对资源的弹性敏捷调度就能顺利支撑全球最大规模网络互动活动与全球最复杂应用场景。京东云创造大型公共活动技术保障新历史的背后,不仅仅展现了自身的技术实力,也可以看做是中国云计算行业整体崛起的一道剪影。在这道剪影的背后,则是中国云行业从“推动企业上云”到“帮助企业把云用好”的趋势之变。

对京东云而言,从服务京东内部到服务外部产业,从支撑春晚舞台到走向普罗大众,京东云一直在进化,持续夯实自身技术实力,不断拓展业务边界。而登顶春晚红包互动这一云计算领域的“珠穆朗玛峰”,则更加切实展现了直面世界级流量洪峰时对自身的技术自信,体现了多年来京东云作为技术基石积累的扎实能力,而这种能力,随着京东云在产业拓展上的持续深入,正在越来越多的领域得以广泛应用。相信假以时日,京东云必将在产业数智化的道路上越走越快,为产业智能化升级做出更大的贡献。

相关推荐

上演计算资源“乾坤大挪移” 京东云凭什么打赢春晚红包保卫战?
“快手无忌”与“春晚大挪移”
春节不宕机保卫战:14亿人,百亿红包,和加班的工程师丨新年有此氪
春晚红包进入新阶段,京东首秀带来了什么?
从标王到百亿红包大战:38年春晚商业权力变迁
移动支付十年(下):春晚红包往事
春晚红包争夺战:互联网大厂为何还在拿钱买流量?
春晚这八年:红包段子不再飞
春晚红包里的巨头权力变迁史
"三驾马车"上演人事大挪移,京东后续靠什么复刻亚马逊的增长神话?

网址: 上演计算资源“乾坤大挪移” 京东云凭什么打赢春晚红包保卫战? http://m.xishuta.com/newsview58579.html