项目编号 | K08-2024-J053 |
项目名称 | 大规模多元异构智算集群关键技术及产业化 |
候选单位 | 浪潮(北京)电子信息产业有限公司 清华大学 浪潮电子信息产业股份有限公司 |
候选人 | 李仁刚 姚海鹏 王彦伟 何源 王江为 李茹杨 赵雅倩 温圣召 林楷智 李雪雷 刘俊 李兵兵 范宝余 杨乐 樊嘉恒 |
项目简介 | 智能算力基础设施是打造我国新质生产力的重要支撑。IDC预测,2026年我国智能算力规模将达到1271.4EFLOPS,智算集群已步入万卡量级,正在向十万卡演进。大模型训练同步开销大,GPU、FPGA、ASIC等多元异构资源协同难,集群性能无法随规模同步增长,算力利用率不足40%,集群算力性能有效提升已成关键挑战。
在中关村人工智能关键技术创新专项、北京市新一代信息通信技术创新项目等课题支持下,项目组从算、网、集群三方面开展研究,经过多年产学研攻关,突破异构智算集群扩展限制及性能瓶颈。经鉴定,项目技术水平整体达到国际先进、部分国际领先,主要创新点如下:
(1)提出了领域专用加速器及多元异构服务器算力加速方法:发明了AI芯片高效指令调度和混合精度浮点运算加速方法,提出了加速器并行缓存策略及多通道内存访问方法,设计了拓扑动态切换的多元异构服务器系统,典型AI模型计算加速性能相比Intel PAC加速器提高47%,实现集群异构服务器多元算力有效提升。
(2)提出了多元异构加速器一致性互连及高效传输方法:发明了节点内缓存一致性加速器互连协议,提出了节点间RDMA报文跟踪及精准重传机制,攻克了跨域以太网协议硬件全卸载技术,加速器互连延迟相比PCIe Switch由240ns降至150ns,跨域以太网传输端到端性能相比标准网卡提升7倍以上,实现互连网络高效稳定传输。
(3)提出了集群资源硬件池化及自主交互的任务调度方法:首创了CPU解耦的可扩展全互连多元异构池化架构,发明了自主交互感知的计算任务调度和部署策略,有效训练时长占比98%,构建了多元异构万卡集群,实现大模型计算任务灵活调度。
项目成果授权发明专利231项(含美国6项、欧洲3项、日本2项),发表学术论文35篇(含TC、SIGCOMM、IJCAI等),发布国家标准2项,授权软著16项,完成向英特尔知识产权授权。全球首发了支持OpenCL、HBM2、CXL的异构加速器,研制了NF5468等系列多元异构服务器、RDMA/TOE高速互连硬件IP Core、智能网卡等互连设备。成果全面应用于百度、阿里、腾讯、抖音、美团等头部互联网企业及电信运营商,在多个智算中心实现大规模部署,支撑文心一言、业务推荐等万亿参数大模型训练。近三年实现经济效益158.5亿元,经济和社会效益显著,服务器占有率中国第一、全球第二。 |
关 闭 |