项目编号	K08-2024-J053
项目名称	大规模多元异构智算集群关键技术及产业化
候选单位	浪潮（北京）电子信息产业有限公司清华大学浪潮电子信息产业股份有限公司
候选人	李仁刚姚海鹏王彦伟何源王江为李茹杨赵雅倩温圣召林楷智李雪雷刘俊李兵兵范宝余杨乐樊嘉恒
项目简介	智能算力基础设施是打造我国新质生产力的重要支撑。IDC预测，2026年我国智能算力规模将达到1271.4EFLOPS，智算集群已步入万卡量级，正在向十万卡演进。大模型训练同步开销大，GPU、FPGA、ASIC等多元异构资源协同难，集群性能无法随规模同步增长，算力利用率不足40%，集群算力性能有效提升已成关键挑战。在中关村人工智能关键技术创新专项、北京市新一代信息通信技术创新项目等课题支持下，项目组从算、网、集群三方面开展研究，经过多年产学研攻关，突破异构智算集群扩展限制及性能瓶颈。经鉴定，项目技术水平整体达到国际先进、部分国际领先，主要创新点如下：（1）提出了领域专用加速器及多元异构服务器算力加速方法：发明了AI芯片高效指令调度和混合精度浮点运算加速方法，提出了加速器并行缓存策略及多通道内存访问方法，设计了拓扑动态切换的多元异构服务器系统，典型AI模型计算加速性能相比Intel PAC加速器提高47%，实现集群异构服务器多元算力有效提升。（2）提出了多元异构加速器一致性互连及高效传输方法：发明了节点内缓存一致性加速器互连协议，提出了节点间RDMA报文跟踪及精准重传机制，攻克了跨域以太网协议硬件全卸载技术，加速器互连延迟相比PCIe Switch由240ns降至150ns，跨域以太网传输端到端性能相比标准网卡提升7倍以上，实现互连网络高效稳定传输。（3）提出了集群资源硬件池化及自主交互的任务调度方法：首创了CPU解耦的可扩展全互连多元异构池化架构，发明了自主交互感知的计算任务调度和部署策略，有效训练时长占比98%，构建了多元异构万卡集群，实现大模型计算任务灵活调度。项目成果授权发明专利231项（含美国6项、欧洲3项、日本2项），发表学术论文35篇（含TC、SIGCOMM、IJCAI等），发布国家标准2项，授权软著16项，完成向英特尔知识产权授权。全球首发了支持OpenCL、HBM2、CXL的异构加速器，研制了NF5468等系列多元异构服务器、RDMA/TOE高速互连硬件IP Core、智能网卡等互连设备。成果全面应用于百度、阿里、腾讯、抖音、美团等头部互联网企业及电信运营商，在多个智算中心实现大规模部署，支撑文心一言、业务推荐等万亿参数大模型训练。近三年实现经济效益158.5亿元，经济和社会效益显著，服务器占有率中国第一、全球第二。
关闭