(来源:环球网资讯)
来源:环球网
【环球网科技报道 记者 张阳】8月12日,2025金融AI推理应用落地与发展论坛在上海举行。在此次论坛上,华为发布了AI推理创新技术——UCM推理记忆数据管理器,该技术旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循环。与此同时,华为与中国银联携手,率先在金融典型场景开展UCM技术试点应用,并联合发布了智慧金融AI推理加速方案应用成果。
当前,人工智能已进入发展深水区,AI推理正成为下一个爆发式增长的关键阶段,推理体验和推理成本也因此成为衡量模型价值的重要标准。华为公司副总裁、数据存储产品线总裁周跃峰博士在论坛上强调:“AI时代,模型训练、推理效率与体验的量纲都以Token数为表征,Token经济已经到来。”为了保障流畅的推理体验,企业需要持续加大算力投入,然而,如何在推理效率与成本之间找到最佳平衡点,成为全行业亟待解决的重要课题。
华为数据存储产品线AI存储首席架构师李国杰对记者表示,从“模型智能”全面转向“数据智能”,已在业内形成高度共识,且这一拐点正在加速到来。他进一步解释道:“一方面,商业侧开始追问AI的闭环变现与最终用户体验;另一方面,当端到端模型能力提升遇到天花板时,系统化地转向数据智能成为必然选择” 。
“很多模型之所以表现不及预期,根本原因是缺乏高质量数据。大量依赖AI合成数据,既导致‘数据荒’,又带来质量隐患,数据治理、数据价值挖掘和数据智能将成为下一阶段产业研究的核心议题。”李国杰说。
针对这一难题,华为推出的UCM推理记忆数据管理器,由三大组件构成,分别是对接不同引擎与算力的推理引擎插件(Connector)、支持多级KV Cache管理及加速算法的功能库(Accelerator)、高性能KV Cache存取适配器(Adapter)。通过推理框架、算力、存储三层协同,实现了AI推理“更优体验、更低成本”。
在提升推理体验方面,依托UCM层级化自适应的全局前缀缓存技术,系统能够直接调用KV缓存数据,避免重复计算,使首Token时延最大降低90%。同时,UCM将超长序列Cache分层卸载至外置专业存储,通过算法创新突破模型和资源限制,实现推理上下文窗口10倍级扩展,满足长文本处理需求。
在降低推理成本上,UCM具备智能分级缓存能力,可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动;同时融合多种稀疏注意力算法,实现存算深度协同,使长序列场景下TPS(每秒处理token数)提升2-22倍,显著降低每Token推理成本,为企业减负增效。
在与中国银联的联合创新技术试点中,UCM的技术价值得到了充分验证。在中国银联“客户之声”业务场景下,借助UCM技术及工程化手段,大模型推理速度提升125倍,仅需10秒即可精准识别客户高频问题,有效促进了服务质量的提升。未来,中国银联将依托国家人工智能应用中试基地,联合华为等生态伙伴共建“AI+金融”示范应用,推动技术成果从“实验室验证”走向“规模化应用”。
华为数据存储产品线副总裁、闪存领域总裁谢黎明表示,金融行业在AI推理应用中面临三大核心挑战:一是长序列输入导致的“推不动”;二是并发上不去且每Token时延长造成的“推得慢”;三是耗费大量算力做KV重复计算引发的“推得贵”。而华为的解决方案核心就是围绕改善推理体验和推理性价比。
李国杰补充道,金融行业在IT信息化和科技赋能建设中一直走在前列,无论是银行还是保险,都能在大量数据中挖掘机会。随着走向Agentic AI时代,面临信息量爆炸,体现在模型侧就是显存不足以及推理Token成本的问题,华为的解决方案正是为了解决这类问题。
论坛现场,华为还正式公布了UCM开源计划。UCM通过开放统一的南北向接口,可适配多类型推理引擎框架、算力及存储系统。今年9月,UCM将正式开源,后续逐步贡献给业界主流推理引擎社区,携手全产业共同推动AI推理生态的繁荣发展。
对此,李国杰表示,AI技术栈很深广,开源是希望行业能在全栈协同上做更多努力,推动推理架构发展,保持开放态度,沿着对推理发展和Token经济有益的趋势前进。谢黎明则认为,IT行业产品先行、标准随后,通过开源,能让更多厂商和伙伴加入,推动标准落地,共创标准,从而真正解决推理体验和成本问题。
华为UCM技术的发布,无疑为AI推理领域带来了新的突破,也为智慧金融的发展注入了强劲动力。随着UCM技术的开源和推广应用,有望推动整个AI推理行业的效率提升和成本优化,开启AI商业应用的新篇章。
相关推荐
每Token成本显著降低 华为发布UCM技术破解AI推理难题
AI重磅!华为“黑科技”来了
值得期待!华为将发布AI推理领域突破性成果!
反转!AI 推理能力遭苹果质疑后,Claude 合著论文反击:不是不会推理,是输给 Token
破解AI时代算力难题,中国看到了三个“关键”
HBM之战:中国加速破墙,英伟达杀入基础裸片设计
阿里巴巴最新 Qwen3 模型宣称引领 AI 推理技术
华为将发布AI推理领域突破性成果
王庆文:共筑坚实智算底座,加速行业智能化
谷歌最强大模型终于问世,价格杀到0.7元/百万token
网址: 每Token成本显著降低 华为发布UCM技术破解AI推理难题 http://m.xishuta.com/newsview140607.html