出品 | 电商报Pro 作者 | 周文君
阿里推出AI图生视频模型EMO
只要一张照片加上音频,就能让你说话唱歌,阿里做到了。
最近,阿里新上线了一款AI图片-音频-视频模型技术EMO,用户只需要提供一张照片和一段任意音频文件,EMO即可生成会说话唱歌的AI视频。以及实现无缝对接的动态小视频,最长时间可达1分30秒左右。
阿里研究团队表示,EMO可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频,同时,其可以根据输入视频的长度生成任意持续时间的视频。
你可以想象一下,用单张静态AI美女头像就可以生成唱歌视频,让前段时间OpenAI sora生成的女主唱歌,或者说用一张张国荣的肖像就可以“复活”张国荣唱粤语歌。
值得一提的是,生成的视频中人物表情非常到位,口型、语速也都能完全匹配。
EMO框架介绍 图源:GitHub官网
结合最近Sora在全球爆火的消息,以及国内各大公司都积极布局AI生成视频的动作,阿里这次新推出EMO,是要紧跟市场形势。
比较来看,与Sora由文本生成视频不同的是,阿里的EMO是图片生成视频。但无论如何,视频生成模型赛道已经成为各大科技互联网公司的投入重点。在近日的财报电话会上,百度董事长李彦宏表示,多模态的融合,从文字到视频是非常重要的未来基础模型开发方向,百度已经进行投资并将持续进行投资。
对于阿里来说,在AI方面的布局,阿里从来没有掉队过。
去年4月,阿里已经推出了“通义千问”语言大模型,具备多轮对话、文案创作、逻辑推理等功能。在当时的阿里云峰会上,阿里云智能集团CEO张勇还高调宣布,阿里巴巴所有产品未来将接入“通义千问”大模型,进行全面改造。
不仅包括天猫、淘宝这样阿里集团最核心的产品,还涉及钉钉、高德地图、闲鱼、饿了么、优酷、盒马、淘票票等其他产品。
在主营电商业务,阿里已经推出面向C端用户的AI产品“淘宝问问”,类似于淘宝的导购,帮助用户更便捷地购物。阿里还将AI用在不同领域,比如探索医疗AI前沿技术、在招聘方面搭建“招聘+AI平台”等。
晚点LatePost报道称,阿里巴巴旗下淘天集团和国际数字商业集团都已经建立了完整的AI团队。去年11月末,淘天集团将原本约20个团队收拢为4个,分别负责阿里妈妈、C端消费者、B端商家以及行业特色应用,并且对内发布了淘天自己的大模型产品“图灵”。
阿里内部一直在强调AI的重要性,马云甚至在阿里内网发声,AI电商时代才刚刚开始,对谁都是机会,也是挑战。
如今,随着市场的不断变化,阿里需要转型变革。用阿里集团CEO吴泳铭一句话:“AI时代,阿里巴巴要成为一家服务全社会AI创新的、开放的科技平台企业。”
AI时代,阿里云承担重任
阿里要成为一家科技公司,关键在阿里云。尤其是在AI方面,阿里云是阿里巴巴在AI布局上的重中之重,是各项业务能够应用到AI的核心引擎。
阿里云在人工智能领域的布局提升了阿里巴巴整体的市场竞争力。通过训练和优化大模型,阿里云提供更加准确和高效的自然语言处理、图像识别、语音识别等服务,这些服务可以应用于阿里巴巴的各个业务场景中,如电商、物流、金融等,从而推动业务的创新和发展。
反之,各行业对于AI云服务的需求,也为阿里云AI业务的发展提供了广阔的市场规模。此前阿里云原董事长兼CEO张勇曾表示,AI云服务需求非常旺盛,增量机会刚刚开始释放。
2023年以来,阿里云发布了一系列生成式AI模型,这些模型都受到市场欢迎。6月,阿里云通义大模型推出了新产品“通义听悟”,可对音视频内容进行转写、检索、摘要和整理等,帮助用户在开会、上网课、看视频时更轻松浏览视频内容。
发布当月,通义听悟用户数已达36万,处理音频时长5万小时,处理文字超8亿。
7月,阿里云又推出绘画创作大模型“通义万相”,可辅助人类进行图片创作,未来可应用于艺术设计、电商、游戏和文创等应用场景。
同一个月,妙鸭相机向公众开放,这是一款基于AI技术的写真生成工具。当月内“妙鸭相机”就多次登顶IOS应用排行榜,排队人数峰值能达到4000-5000。甚至成为中国AIGC领域第一个爆火的C端产品,一上线就实现了付费使用。
图源:妙鸭相机
可以预见,目前上线的AI图生视频模型EMO,或许又是一个火爆的AI产品。而阿里的这些AI技术的发展,离不开阿里云基础设施建设。
去年11月,阿里巴巴集团CEO吴泳铭,明确了阿里云的战略定位,即“AI驱动、公共云优先”,表示为各行各业提供稳定高效的AI基础设施,共建开放繁荣的AI生态。
然而就在当月,阿里云就迎来了新一轮组织架构调整,幅度很大,不仅在阿里集团层面成立了一个基础设施委员会,同时阿里云在产研线、商业线以及包括供应链&IDC等在内的其他8个部门也均产生变动。
继11月底进行组织结构调整后,阿里云又进一步调整了业务重心,精简为政企客户定制的行业解决方案项目制业务,并砍掉 IoT(物联网)业务线硬件集成业务并缩减相关人员。同时,阿里云还逐步扩大了公共云事业部和AI部门的招聘规模。这也意味着,阿里云重新进行资源整合,将重心转移至公共云事业部和AI部门。
当前阿里云面临的是瞬息万变的市场环境,必须要不断改变与革新,时刻迎接挑战。
国内云计算市场仍是蓝海
在过去,阿里云一直占据着中国公共云市场的主要份额,有着显著优势。随着越来越多的企业进入云服务市场,阿里面对的市场的竞争格局更加复杂。
阿里不得不采取行动,2月29日,阿里云全线下调云产品官网售价,平均降价幅度超过20%,最高降幅达55%。这是阿里云史上最大力度的一次降价,涉及100多款产品、500多个产品规格,覆盖计算、存储、数据库等所有核心产品。
图源:阿里云
而在去年4月,阿里云已经宣布对核心产品进行大规模降价。如今,阿里云的降价力度远超去年,可见阿里对进一步扩大公共云基数和规模的急切。毕竟,除了阿里云,其他云服务厂商也打起来价格战。比如去年腾讯云、移动云、京东云等均给出了不小的降价和促销力度。
可以看出,各大互联网企业加速抢夺市场份额。之所以竞争愈发激烈,是因为国内云计算市场仍处于蓝海,还有很大的发展空间。
据了解,中国云计算发展了十多年,但公共云渗透率仍大幅低于欧美成熟市场。中国市场的服务器存量规模2000万台,而美国为2100万台,但美国以公共云形式提供服务的算力占比为60%,中国仅为28%。
可见,我国在公共云服务领域以及整体算力资源的利用效率上尚存显著提升空间,而这背后蕴藏的,无疑是巨大的增长潜力和发展机遇。
如今对于阿里云来说,外部竞争愈发激烈,而阿里云在提高云服务的稳定性方面还需进一步加强。总的来说,随着公有云市场硝烟再起,阿里云需要在AI与公共云市场中建立、守住优势。
发布于:广东
相关推荐
阿里整大活,一张照片就能生成视频
阿里EMO模型,一张照片就能造谣
阿里云推出AI视频生成工具 支持单图生成数字人视频
亚马逊将用AI为广告商生成照片和视频
请扶稳,大模型视频生成的第一站到了
AI创业公司Runway推出旗下首款应用:用手机就能生成AI视频
华为新研究:一张贴纸就能破解 Face ID ?
一张照片攻破人脸识别系统:能点头摇头张嘴,网友:太可怕
Stable Diffusion 3来了,4秒视频生成却翻了车
用一张照片解开人脸识别,零售场景人脸识别将被整顿
网址: 阿里整大活,一张照片就能生成视频 http://m.xishuta.com/newsview110186.html