项目编号 | K08-2025-J112 |
项目名称 | 大规模多元异构智算系统关键技术及产业化 |
候选单位 | 浪潮(北京)电子信息产业有限公司 清华大学 浪潮电子信息产业股份有限公司 |
候选人 | 李仁刚 姚海鹏 王彦伟 任炬 刘俊 吴安 李茹杨 王江为 任晓旭 李雪雷 杨乐 刘璐 李霞 张静东 樊嘉恒 |
项目简介 | 智能算力作为国家战略资源,已成为全球科技竞争焦点。当前大模型后训练和长序列推理驱动智能算力需求激增,超大规模智算系统正在加速建设。大模型训练同步开销大,GPU、FPGA、ASIC等多元异构资源协同难,智算系统性能无法随规模同步增长,算力利用率不足40%,系统算力性能有效提升已成关键挑战。
在国家自然科学基金专项、北京市新一代信息通信技术创新项目、中关村人工智能关键技术创新专项等项目支持下,项目针对多元异构算力融合的迫切需求,攻克了多元异构算力加速方法、一致性互连及高效传输机制、智算系统管理优化方法等关键技术,构建了大规模多元异构智算系统。经鉴定,项目技术水平整体国际领先,主要创新点如下:
(1)计算层:提出了服务器多元异构算力加速方法。发明了多元算力间的全局共享内存接口与多通道内存访问方法,设计了多元异构服务器统一接口,研制了卡间一致性超扩展多元异构服务器,相比于传统8卡服务器,训练性能提升7.46倍,在MLPerf 等国际权威性能测试中取得多项第一。
(2)互连层:提了多元异构加速器一致性互连及高效传输方法。提出了节点内缓存状态单步全维护的一致性互连协议,发明了轻量化物理帧、细粒度缓存行合并等传输优化方法,攻克了丢包精准重传与乱序恢复技术,加速器互连延迟低至76ns,节点间RDMA网络在0.1%丢包率下的有效数据传输速率可达90Gbps以上,实现了接近满带宽传输性能。
(3)系统层:提出了大规模多元异构智算系统管理优化方法。发明了基于故障主动预测的跨异构节点容错技术,模型有效训练时长占比达98.1%,发明了基于异构资源特征的计算任务调度策略,构建了万卡级多元异构智算系统,算力利用率达61.9%。
项目成果授权发明专利231项(含美国6项、欧洲3项、日本2项),发表学术论文35篇,发布国家/国际等标准6项,完成向英特尔知识产权授权,全球首发了支持OpenCL、HBM2、CXL的异构加速器,研制了NF5468、ORS8000等系列多元异构人工智能服务器,多款高速互连网络硬件IP Core。成果全面应用于字节、百度、美团、阿里、腾讯等头部互联网企业及电信运营商,在多个智算中心实现大规模部署,大幅提升了我国高质量算力基础设施服务水平。经济和社会效益显著,近三年实现经济效益166.69亿元,服务器占有率中国第一、全球第二。
|
关 闭 |