英伟达平替?国产GPU万卡集群来了
AI大模型的主战场,万卡已是标配
最近两年,大语言模型发展迅猛,对算力需求激增。然而,英伟达A100等高端GPU一卡难求,是挑战还是机遇?众多国产算力厂商开始寻找新的替代方案。
作为国内仅有的可以在功能上对标英伟达的GPU企业,摩尔线程试图用“集群化”的解决方案,助力国产GPU突破算力瓶颈。
7月3日,在2024世界人工智能大会召开前夕,摩尔线程宣布其夸娥(KUAE)智算集群解决方案实现重大升级,从当前的千卡级别大幅扩展至万卡规模,以此来完成对大模型的托举,为万亿参数级别的大模型训练提供持续高效、稳定、且广泛适用的通用算力支持。
AI主战场,万卡是标配
2023年5月10日,Google推出的超级计算机A3 Virtual Machines拥有26,000块Nvidia H100 GPU,同时基于自研芯片搭建TPUv5p 8960卡集群;
2024年3月,Meta分享了其两个新的AI训练集群,新发布的两个集群均包含24,576个Nvidia Tensor Core H100 GPU,比上一代的16,000块增长了不少;
而OpenAI开发的ChatGPT-4拥有16个专家模型共1.8万亿参数,一次训练需要在大约25,000个A100上训练90到100天。
事实证明,AI大模型的主战场,万卡已是标配
那么,AI大模型时代,究竟需要怎样的算力?从大模型的发展趋势,我们可以窥得一二。
在2020年推出的Scaling Law(尺度规律)持续作用之下,推动了大模型的“暴力美学”趋势。以OpenAI的ChatGPT的发展为例,大模型训练的方向是参数规模从百亿增长到万亿,至少增长了100多倍;所需处理的数据量从TB级别增长到10+TB,至少增长了10多倍;计算量至少增加了1000多倍。这样的大模型必须要有规模足够大的算力,才能快速跟上技术演进。
不只是规模够大,AI算力还必须具有通用性。这是因为,目前大模型背后所基于的是Transformer架构,它虽然是当下的主流架构,但并不能大一统,它自身仍在加速融合演进,从稠密到MoE,从单模态到多模态,从扩散到自回归。同时,除了Transformer架构之外,也不断有其他创新架构出现,如Mamba、RWKV和RetNet等。因而,Transformer架构并不等于最终答案。
此外,AI、3D、HPC跨技术与跨领域融合不断加速,比如利用AI+3D实现空间智能、AI+仿真计算实现物理智能、AI+科学计算实现4Science等。计算范式的演进,以及更多场景对多元算力需求的变化,都催生了对一个通用加速计算平台的渴望。
(消息来源:qq图片来源:unsplash)