首页 > 科技快讯 > 可支持千亿大模型训练,摩尔线程推出全国产GPU千卡智算中心|最前线

可支持千亿大模型训练,摩尔线程推出全国产GPU千卡智算中心|最前线

作者 |杨逍

编辑 |邓咏仪

12月19日,国产GPU公司摩尔线程召开发布会,带来包括大模型加速卡、智算中心、集群管理平台、模型服务在内的全系列产品。

在硬件上,摩尔线程宣布推出大模型智算加速卡MTT S4000、服务器MCCX D8000和算力基础设施KUAE计算集群。

智算加速卡MTT S4000单卡支持48GB显存和768GB/s的显存带宽,针对INT8/fp16/tf32/fp32,算力分别可达到200TOPS、100TFLOPS、50TFLOPS、25TFlops。服务器MCCX D8000则由8张MTT S4000构成。

摩尔线程走全GPU技术路线,这款卡具有图形渲染能力、视频编解码能力和超高清8K HDR显示能力,可用于AI计算、图形渲染、多媒体等场景。

据摩尔线程介绍,在摩尔线程自研MUSIFY开发工具帮助下,MTT S4000能零成本适配CUDA代码。

集群并不直接等于多个服务器的累积,它还需要具有高算力、大存储、快互联等特点。为更好支持行业对GPU产品对需求,摩尔线程构建了智算中心KUAE。

据摩尔线程CEO张建中介绍,KUAE千卡模型训练平台的训练周期只需要30天,它有3个版本K1、K2、K3,分别集成了1000卡、2000卡和3000卡。在一个月时间,K1可以支持训练出70b的大语言模型;K2能支持如130B、170B千亿模型;K3则能支持训练更大的模型。

他表示,以智源研究院700亿参数Aquila2为例,在2000亿数据量情况下,KUAE能在33天完成训练;1300亿参数情况,则需要56天完成训练。

AI公司对数据中心并不了解,哪怕有了服务器,大模型在不同的服务器上也有不同的训练方法。为此,摩尔线程提供了KUAE Platform集群管理平台和KUAE ModelStudio模型服务。

集群管理平台能帮助用户管理、调度集群算力资源,并集成多维度运维监控、告警和日志系统,实现智算中心运维自动化。

对于训练大模型的公司而言,最担心的是因数据中心不稳定带来的训练时间被浪费的问题。一旦数据中心发生故障,需要重新计算。KUAE有checkpoint一步启动功能,如果在计算过程中发生错误,checkpoint可以帮助用户从故障点重新启动训练,以免降低用户时间。

KUAE ModelStudio模型服务则是提供了大模型预训练、微调和推理全流程功能,支持包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等各类主流大模型的训练和微调。

相关推荐

最前线|「摩尔线程」推出第二代全功能GPU“春晓”,首款消费级国潮芯片显卡等7大新品亮相
步步为营 扎实前行 摩尔线程从底层推动国产GPU芯片产业发展
最前线|「摩尔线程」推出首款基于自研MUSA架构处理器,面向台式机和数据中心发布两大GPU产品
8999块为国产情怀买单?摩尔线程智娱摩方台式机视频评测
游戏显卡价格直降,摩尔线程能扛起国产大旗吗?
游戏显卡价格跳水,摩尔线程能自救吗?
价格跌破1000!摩尔线程显卡降价,值得买吗?
GPU创业“高烧不退”,摩尔线程完成A轮20亿融资
36氪专访|摩尔线程:全功能GPU为未来元宇宙计算提供综合算力
国产GPU掀起投资热!「摩尔线程」完成数十亿元两轮融资,成立仅100天

网址: 可支持千亿大模型训练,摩尔线程推出全国产GPU千卡智算中心|最前线 http://m.xishuta.com/newsview102161.html