您当前的位置: 首页 > 产品展示 > 钢铝件
钢铝件

国产GPU万卡集群终于来了!摩尔线程CEO张建中:做难而正确的事

更新时间   2024-07-07 08:02:26 作者: 钢铝件
  • 产品详情

  在国内,万卡集群建设高歌猛进。去年 7 月,华为昇腾 AI 集群规模扩展至 16000 卡;10 月,科大讯飞宣布启动万卡集群算力平台“飞星一号”;今年 3 月,天翼云上海临港国产万卡算力池启用;4 月,中国移动宣布今年将商用 3 个自主可控万卡集群 一众云大厂更是囤卡攒算力专业户,将大模型训练集群规模卷向 10 万卡量级。

  就在昨日,国产 GPU 公司摩尔线程宣布其人工智能(AI)旗舰产品夸娥(KUAE)智算集群解决方案实现重大升级 从千卡扩展至万卡规模。

  这是其首个万卡万 P 万亿国产全功能 GPU 大模型预训练平台,树立了国产 GPU 技术的新标杆:

  总算力超过 10EFLOPS,目标是做到有效计算效率超过 60%、稳定性达 99%,能支撑万亿参数级大模型训练。

  3 个万卡集群项目(青海零碳产业园万卡集群、青海高原夸娥万卡集群、广西东盟万卡集群)在现场进行了战略签约。

  两家清华系 AI Infra 合作伙伴(无问芯穹、清程极智)、两家大模型大厂合作伙伴(360、京东云)、一家具身智能合作伙伴(智平方科技)的代表先后登台,对夸娥智算集群助力其在大模型训练、推理及具身智能的创新赞誉有加。

  大模型竞赛轰轰烈烈,从研发到应用,从训练到推理,一切都在疯狂消耗着算力。

  智算中心是大模型训练的“超级加工厂”,数据量够多、参数量够大,训练出的大模型才有市场竞争力。对此,张建中总结出三大算力核心需求:

  一是 Scaling Law 持续奏效,假设按线性比例成长,参数规模从百亿到万亿有 100 倍增长,处理数据量从 TB 到 10+TB 有 10 倍提升,两者相乘,那么所需算力至少增长 1000+ 倍,要建立一个单节点超大规模算力集群来做训练。

  二是算法持续迭代,Transformer 架构不能够实现大一统,从稠密到稀疏模型,再到多模态模型的融合,多元架构持续演进并共存,面向特定领域设计的专用芯片难以适应未来算法,通用型算力才具备更强的抗风险能力。

  三是 AI、3D、高性能计算(HPC)跨技术与跨领域融合加速,推动空间智能物理 AI 和 AI for Science、世界模型等领域的边界拓展,使得大模型的训练和应用环境更为复杂多元。

  这些趋势对智算集群提出了多重要求:既要规模够大,又要通用性强,前者负责支持顶尖大模型巅峰对决,后者顺应多元计算融合发展的趋势,进而催生出对万卡 GPU 集群的迫切渴求。

  海外头部 AI 大厂都步调激进,OpenAI 单点集群有超 5 万张 H100,谷歌打造了 2.6 万张 H100 组成的 AI 超算,Meta 到今年年底将囤 35 万张 H100。国内大厂固然也愿意豪掷巨资,但被美国一纸限令推入“有钱买不到新算力”的僵局。

  而如果没有万卡集群做训练,好比国产大模型拼命蹬着朴素的三轮,想跟开跑车的海外龙头同场飙车,逆袭的几率不能说没有,只能说极低。

  甲之砒霜,乙之蜜糖。英伟达入华受阻,给了国产 AI 芯片备胎转正的机会。摆在前方的是一座名为智算需求的金矿,算力供应商们在摩拳擦掌,期待英伟达腾出的大单能落到自己头上。

  摩尔线程则以一家国产 GPU 企业的身份,率先坐上了建设万卡集群的牌桌。

  “这是一件难而正确的事情。”张建中说,“咱们不可以只是一家 GPU 的公司,一定要成为一家系统平台公司。”

  创办于 2020 年 10 月的摩尔线程,甫一成立就组建云计算团队,设定了建集群的大方向和策略,并构建了 MUSA 体系架构,花了大量时间去研究集群建设中的很多问题,攻坚克难。在大模型潮起后,这一路线更加明确与坚定。

  从千卡到万卡,集群建设的复杂度指数级增加,是一项超级系统工程。大集群 大算力,多卡互联也绝非简单的“ 1+1=2 ”算术题,非常考验算网存系统级优化的功力。

  暴力堆卡虽然能带来理论算力总和的暴涨,但若无法解决技术及工程挑战,即便手握 10000 张卡,实际能发挥的算力可能还不及 2000 卡。而且卡连的越多,出故障的概率也会越大,从硬件设计到集群研究都要解决稳定性难题。

  这就好比带兵打仗,单人武力值高不等于团队战斗力强,胜败关键看排兵布阵的策略和高效无缝的配合。每位士兵要骁勇善战,调兵遣将时需确保通信无阻,后备粮仓和医药资源也都得跟上。

  对应到万卡 GPU 集群,则是算网存管每一环节都不能有短板,单卡算力要强,组网拓扑结构要设计得效率足够高,即能有效提升单位功耗的算力,还要有敏捷的故障排查和及时恢复能力,才能确保训得多、算得快、用得方便,跑得够稳。

  因此,这项系统工程必须翻越六座大山:超大规模组网互联、集群有效计算效率、训练高稳定性与可用性、故障快速定位与可诊断工具、生态 Day0 级快速迁移、未来场景通用计算。

  万卡集群造价极高。据张建中分享,几万 P 的智算中心成本高达几十亿,更大算力规模则需投资上百亿。如此大的投资,要求集群不仅拥有强大算力,而且一定要具有多年持续服务的能力。设计智算中心时至少要考虑到两三年后的扩容程度,否则一旦空间和能源受限,规模就很难扩展。

  在接受采访期间,张建中分享到目前智算中心投资回报率是 5 年左右,而国内芯片研发费用大致相当于美国公司的 1/10,在国内能够获得更好的回报,他相信在国内的发展的潜在能力非常巨大。

  那么要打造“国产万卡万 P 万亿大模型训练平台”的摩尔线程,具体是怎么做的?

  计算效率、高度稳定、生态兼容,构成了摩尔线程夸娥万卡智算集群的三道护城河。

  摩尔线程之所以将智算中心全栈方案命名为“夸娥(KUAE)”,是希望它像传世典故《愚公移山》中的夸娥氏二子那般不畏艰难,持之以恒,将一块块 GPU 加速卡垒成一个强大的计算集群。

  这是一套以全功能 GPU 为底座,软硬一体化、完整的系统级算力解决方案,包括以夸娥计算集群为核心的基础设施、夸娥集群管理平台(KUAE Platform)以及夸娥大模型服务平台(KUAE ModelStudio),旨在以一体化交付的方式解决大规模 GPU 算力的建设和运营管理问题。

  张建中将夸娥万卡集群称作“新超级工程”。摩尔线 年完成了这项工作,希望可以搭建首个中国本土通用型的万卡集群。

  大集群的线%。有了这样一个灵活组合的集群,客户就能依据自己建设规划去扩容每个计算集群。

  全栈 AI 软件。摩尔线程夸娥智算集群的软件栈提供了一系列的加速引擎和便捷的管理平台,并支持用户进行 7×24 小时的随时远程监控。

  1、超大算力,万卡万 P:单集群超万卡,浮点运算能力达到10Exa-Flops,显存总容量、卡间互联总带宽、节点互联总带宽均达到PB 级,实现算力、显存和带宽的系统性协同优化,从而支持万亿参数级大模型的训练。

  2、超高稳定,月级长稳训练:平均无故障运行时间超过15 天,最长稳定训练30 天以上;目标周均训练有效率逾99%。

  3、极致优化,超高 MFU:在系统软件、框架、算法等层面进行一系列优化,希望 MFU(集群有效计算效率,评估大模型训练效率的通用指标)最高能够达到60%,让用户买到的算力能真正发挥效力,而不只是买了一堆硬件。

  4、计算通用:为通用场景设计,可加速LLM、MoE、多模态、Mamba等不同架构、不同模态的大模型,能够紧跟技术演进。

  5、生态兼容:过去大部分软件都是在 CUDA 平台上开发,换到新平台,怎么来实现来了就能用?这在某种程度上预示着不仅要与国际主流生态兼容,还要扩展中国本土生态,两条腿一起走路。

  完整兼容 CUDA,开源社区和官方网站均可下载 Torch MUSA 源代码,并提供自动化迁移工具 Musify,以便用户能在短期内迅速将模型和迁移到 MUSA 平台。

  对于目前国内的大模型用户来看,我们最大的优势就是生态兼容性很好,基本上当天或者是第二天就能够实现生态迁移并应用起来,对客户就十分便捷,从投入成本来讲大大节约了用户的资源,同时也节约了我们的资源。”张建中说。

  几乎不需要修改代码,迁移成本接近 0,几小时之内就能完成迁移工作,调优性能可能花费数天。

  PES 完美体验系统联盟。在张建中看来,这是国外 GPU 公司没办法做到的产品兼容性。

  目前几乎所有的 CPU 企业都和我们的 GPU 完成了适配,我们一个驱动能支持几乎所有的 CPU,”他谈道,“我们大家都希望完美体验系统让国内的 CPU、操作系统和我们的 GPU 工作在一起的时候,可以为客户提供一个完整且很好的体验。”

  三、AI Infra、大模型、具身智能代表站台,认证夸娥智算集群性能高、稳定好用

  针对这些挑战,清程极智智能编译器 IntelliGen 和高效并行训练系统 FastMoE 均已适配 MUSA,取得大幅训练加速,并实现 0 代码改动。汤雄超称赞摩尔线程的 GPU 硬件架构、指令集、编译器、MUSA 软件栈等设计都很优秀,清程极智有信心与摩尔线程一起攻克中国 AI 超大规模训练集群的难题,共同建设世界水平的训练集群。

  据他分享,摩尔线程是国内唯一一家用全功能 GPU 去实现各方面通用加速计算能力的公司,用 4 年时间将 GPU 的 3D/2D 图形图像、视频编解码、科学计算、物理仿真、数字孪生、AI 训练及推理能力都做了提升,能为客户提供一个更好的、可选择的国产化工具,并使得智算中心能支持更广泛的应用场景,提高长期抗风险能力。