项目编号	K08-2025-J112
项目名称	大规模多元异构智算系统关键技术及产业化
候选单位	浪潮（北京）电子信息产业有限公司清华大学浪潮电子信息产业股份有限公司
候选人	李仁刚姚海鹏王彦伟任炬刘俊吴安李茹杨王江为任晓旭李雪雷杨乐刘璐李霞张静东樊嘉恒
项目简介	智能算力作为国家战略资源，已成为全球科技竞争焦点。当前大模型后训练和长序列推理驱动智能算力需求激增，超大规模智算系统正在加速建设。大模型训练同步开销大，GPU、FPGA、ASIC等多元异构资源协同难，智算系统性能无法随规模同步增长，算力利用率不足40%，系统算力性能有效提升已成关键挑战。在国家自然科学基金专项、北京市新一代信息通信技术创新项目、中关村人工智能关键技术创新专项等项目支持下，项目针对多元异构算力融合的迫切需求，攻克了多元异构算力加速方法、一致性互连及高效传输机制、智算系统管理优化方法等关键技术，构建了大规模多元异构智算系统。经鉴定，项目技术水平整体国际领先，主要创新点如下：（1）计算层：提出了服务器多元异构算力加速方法。发明了多元算力间的全局共享内存接口与多通道内存访问方法，设计了多元异构服务器统一接口，研制了卡间一致性超扩展多元异构服务器，相比于传统8卡服务器，训练性能提升7.46倍，在MLPerf 等国际权威性能测试中取得多项第一。（2）互连层：提了多元异构加速器一致性互连及高效传输方法。提出了节点内缓存状态单步全维护的一致性互连协议，发明了轻量化物理帧、细粒度缓存行合并等传输优化方法，攻克了丢包精准重传与乱序恢复技术，加速器互连延迟低至76ns，节点间RDMA网络在0.1%丢包率下的有效数据传输速率可达90Gbps以上，实现了接近满带宽传输性能。（3）系统层：提出了大规模多元异构智算系统管理优化方法。发明了基于故障主动预测的跨异构节点容错技术，模型有效训练时长占比达98.1%，发明了基于异构资源特征的计算任务调度策略，构建了万卡级多元异构智算系统，算力利用率达61.9%。项目成果授权发明专利231项（含美国6项、欧洲3项、日本2项），发表学术论文35篇，发布国家/国际等标准6项，完成向英特尔知识产权授权，全球首发了支持OpenCL、HBM2、CXL的异构加速器，研制了NF5468、ORS8000等系列多元异构人工智能服务器，多款高速互连网络硬件IP Core。成果全面应用于字节、百度、美团、阿里、腾讯等头部互联网企业及电信运营商，在多个智算中心实现大规模部署，大幅提升了我国高质量算力基础设施服务水平。经济和社会效益显著，近三年实现经济效益166.69亿元，服务器占有率中国第一、全球第二。
关闭