川观智库资讯丨中国信通院:智算基础设施面临“质数”双提升,相关建设应关注四个能力要素

2024-11-06 18:08:37来源:四川在线编辑:张立峰

川观智库研究员 黄爱林

大模型时代对智算基础设施建设提出新要求。近日,中国信息通信研究院发布《智算基础设施发展研究报告(2024年)》(下简称“报告”),认为大模型时代算力需求激增,智算基础设施面临质量和数量的提升,新建智算基础设施应关注算力有效性、集群稳定性、绿色低碳性和服务易用性。

智算基础设施是专为人工智能算力服务的基础设施,是支撑人工智能算法模型训练与推理、数据处理的一系列硬件、软件及网络基础设施的组合。

智算基础设施就是大模型时代的水电煤,随着AI技术不断深入应用,需要提升质量和数量。一方面,AI大模型算力需求激增,万卡级智算集群成为新一轮大模型竞赛的“入场券”,头部大厂发力超万卡级智算基建。过去千卡级智算基础设施已难以满足计算需求,需要万张及以上的加速卡(如GPU、TPU或其他专用AI加速芯片)组成的高性能计算系统,才能够支持更大规模的模型训练和更复杂的计算任务。另一方面,AI大模型推理应用的智算需求迎来爆发,模型推理应用成智算基建的第二条增长曲线。云端推理算力需求量年复合增长率(113%)远高于云端训练算力复合增长率(78%),在主打满足模型训练应用的当前,不少主体开始布局推理智算基建,从而促进智算基建数量提升。

随着AI大模型逐步进入各行业投产应用,对智算基建的通用性、低成本、实时性等方面提出了更高要求。报告认为,智算基础设施建设着重关注四个能力要素:一是算力有效性,主要指向是智算集群算力的利用率,其决定了智算基础设施最终的有效算力供给能力。报告显示,从业界实际调研结果来看,目前智算基础设施算力有效性普遍不高,算力利用率达到40%-50%已属于优秀;二是集群稳定性,报告认为AI大模型训练周期长,故障中断恢复较慢且算力损失大,所以智算集群稳定性尤为重要,而网络的可用性又直接决定了智算基础设施算力的稳定性,提升网络稳定性以及网络在故障场景中快速恢复的能力是当前网络亟待解决的问题;三是绿色低碳性,当前最为先进的智算基础设施单柜能耗已达50+kw,整个智算基础设施耗能和碳排放较大。建设绿色低碳的智算基础设施可推进部署高集成性智算液冷整机柜,同时构建智能化能耗管控平台,达到自动化按需制冷,以实现节能减排;四是服务易用性,主要表现在智算基础设施能提供云化服务,让用户可以随时随地进行计算资源的访问和应用,同时具有全栈式技术能力,能为用户提供从数据采集和处理、模型训练、模型部署和推理等全流程服务,普适、普惠的智算服务也是智算基础设施一大重要趋势。

    编辑推荐