首页 > 科技快讯 > 大模型带动算力需求激增,AI基础设施如何应对新挑战?

大模型带动算力需求激增,AI基础设施如何应对新挑战?

大模型时代,企业对算力的需求激增,然而模型的训练不仅仅是堆算力就可以解决所有问题,如何保障大模型训练的稳定性和效率,对AI基础设施提出了挑战。

百度智能云《智能云知道》&CSDN系列对话栏目上线,首期邀请面壁智能副总裁缪钧玮、百度智能云泛科技行业解决方案总经理康盛,分享对于大模型核心技术与底层基础设施算力的经验与实践。

AI 从单体智能到群体智能

对底层基础设施提出挑战

大模型正掀起新一轮智能化热潮,在面壁智能副总裁缪钧玮看来,大模型代表着迈向通用人工智能的重要进展。具体来说,大模型可以像人类个人助理那样,理解任务、制定计划、最终完成工作。未来人类能够做到的事情,大模型都有可能实现。不过,人工智能要真正服务于社会,就必须融入各行各业,而不是局限于实验室的研究。当前大模型技术虽然还不成熟,但已经展现出在实际场景中快速取得进展的可能。

具体来说,目前大模型已达到的能力大致可分为助手型与专家型两类。例如大模型在文档编写、客户服务、产品设计等领域可以担任虚拟助手,辅助人类完成重复性强、劳动密集型的工作,提升办公效率。另外,通过训练,大模型已经可以在特定领域扮演专家角色,提供智能咨询和决策支持。更远的未来,大模型还将从单体智能走向群体智能的演变。不过要实现大模型从单体到群体、从理性到感性的飞跃,仍需要解决许多技术难题。其中最关键的就是计算资源和基础设施对大模型的支撑。

目前主流的大模型都是建立在巨大的参数量和运算量之上,对算力提出了极高要求。随着模型规模指数级增长,训练一个模型不仅需要大量 GPU 服务器,也依赖高速网络进行交换通信。仅靠增加算力投入是不可持续的,必须从模型压缩、知识蒸馏、多任务学习等方面入手,以提高计算效率。此外,构建健壮的模型服务系统也是一个巨大的系统工程。需要从芯片、框架、模型到应用的全链路来进行优化,保证大规模模型稳定高效地运行。计算资源管理、异构环境调度、故障容错等方面的能力都极为关键。

百度智能云

全栈自研与调优的 AI 基础设施

百度智能云泛科技行业解决方案总经理康盛介绍,百度投入人工智能已经超过 10 年,在芯片、框架、模型、应用四层有全栈布局,在关键核心技术攻坚上,四层架构都有自主研发的领先产品和技术,因此可以进行端到端的优化,迅速提升大模型训练和推理的效率。

对于 AI 基础设施的挑战,从底层到上层看,构建和应用大模型面临基础设施、框架、模型、应用等多方面挑战。要从零做起,难度和成本都非常大。针对这一现状,百度智能云推出了一站式企业级大模型平台——百度智能云千帆,提供先进的生成式AI生产及应用全流程开发工具链。平台上不仅涵盖文心大模型,还聚合了业界众多主流的预训练模型,同时也在吸纳更多领先机构的模型,比如已进行了与面壁智能的模型对接。通过平台化赋能,百度智能云希望可以帮助企业和开发者高效利用大模型技术,快速进行产品研发和创新应用。

具体来说,在模型训练过程中,通过任务并行、数据并行、模型并行、流水线并行等策略,实现资源利用效率最大化,另外通过自研的异构集合通信库 ECCL,支持多种芯片协同工作,进行故障感知和容错处理,确保训练效率。

可以说,百度智能云在大模型训练的资源调度、并行策略、基础通信等方面进行了深入的系统优化,构建了一整套行之有效的解决方案,为大模型提供了坚实基础支撑,确保大模型运行的稳定与高效。

百度智能云+面壁智能

加速千行百业 AI 开发

AI 从单体智能走向群体智能,从科研走向千行百业,还需要深化大模型与实际业务场景的结合。从实际应用情况看,康盛提到企业用户主要有几类:

一是有算法实力的企业如面壁智能,可以自主训练大模型,但面临工程化挑战,需要高性能的 GPU 集群、高速互联网络,还需解决训练和推理优化等问题。二是希望以最优的人力和成本、直接使用现有大模型的企业。三是拥有行业和企业内部数据,基于现有大模型进行二次开发构建行业定制化模型。四是需要基于大模型服务完成AI原生应用快速开发。最后,是希望能直接、方便地选购成熟的AI原生应用产品,来赋能企业业务发展。而以上提及的企业落地大模型的五类需求,在百度智能云基于千帆大模型平台打造的“大模型超级工厂”中都分别给出了最佳服务方案

作为国内技术领先的人工智能大模型公司,面壁智能会将模型托管在百度智能云千帆大模型平台,以降低运维和研发成本,从而将精力集中在基座模型科研,以及模型安全性、行业模型、API 开发等大模型重要的技术方向上。百度智能云为面壁智能提供 GPU 集群、高速存储、网络等底层支撑,并通过各种并行策略进行资源调度优化,确保模型高效稳定训练。同时,也会在模型推理服务方面进行协作,实现推理性能的优化。

节目完整视频,欢迎点击观看:

AI 的发展瞬息万变,我们能看到,百度智能云与面壁智能这种开放合作的模式,将加速大模型在千行百业的应用与普及。百度智能云《智能云知道》&CSDN 系列对话栏目也将继续走进大模型在各行业的落地与最佳实践,敬请持续关注。

大模型时代,如何利用“算力”和“智力”构建超强AI基础设施也成为企业重点关注的议题,2023年10月26日,生态共创与技术交流沙龙将在北京举办,诚邀您现场参会加入到“智力”与“算力”的共创浪潮中。扫描下方二维码立即报名↓

发布于:江苏

相关推荐

AI带动算力需求激增,数据中心也迎来变革新机会
8万亿中国AI算力产业,面临哪些机遇与挑战?
阿里进入大模型时代,核心是算力和生态
Meta连甩AI加速大招!首推AI推理芯片,AI超算专供大模型训练
钛媒体科股早知道:为人工智能夯实“算力底座”,智算中心可带动相关产业增长数十倍;世界数字教育大会将重点探讨教育数字化转型
液冷服务器年增305%:AI大模型再创新需求?
中国AI算力占全球三成:IDC 最新报告解读,算力仍是AI发展最强推力
AI大模型,如何保持人类价值观?
打赢AI争夺战,要靠一张算力网
武汉人工智能计算中心:算力基础设施 赋能千行百业

网址: 大模型带动算力需求激增,AI基础设施如何应对新挑战? http://m.xishuta.com/newsview96122.html

所属分类:行业热点