项目编号	K08-2025-J141
项目名称	面向座舱复杂声学环境的高性能声学语音系统关键技术研究及应用
候选单位	小米汽车科技有限公司清华大学北京工业大学中国科学院大学小米通讯技术有限公司北京小米移动软件有限公司北京小米松果电子有限公司
候选人	宋其岩欧智坚贾懋珅黄晓玥吴俊楠鄢社锋张涵诣王育军张俊博吴宇轩李洪丰刘孟美
项目简介	智能声学语音系统作为人工智能产业化落地的战略载体，是国家发展和改革委员会《智能汽车创新发展战略》中要求实现技术突破的核心关键领域。汽车作为智能化科技产品，其座舱声学语音系统对提升驾驶体验、安全性和科技感至关重要。然而，现有系统性能不稳定，易受环境干扰。研发高性能声学语音系统并实现产业化，对提升汽车及智能设备性能、提升国产汽车竞争力具有重要意义。本项目利用AI技术提升车载音频系统性能，涵盖语音交互、通话系统、声浪音效等核心功能。团队融合高校科研与企业经验，突破声学、语音与AI交叉领域关键技术，研发出国际领先的技术成果与产品，主要科技创新为： 1）轿车声学大模型及五音区交互系统创新算法。提出国际首个超1B参数的dasheng声学大模型，采用超70年的海量多领域音频数据进行自监督训练，通过ViT时间粒度优化和一致性蒸馏技术优化模型，舱外语音攻击防御率达到99%，实现国际领先；提出家用轿车五音区交互技术，通过多目标分类算法划分声学空间，网络融合能量谱、压力传感、声纹等多模态信息进行音区识别，识别率达98%，达到国际先进水平。 2）基于传统算法与神经网络深度融合的智慧多功能通话系统。提出快速波束优化技术，分别对目标/非目标进行空域滤波，并与麦克风数据作为网络的输入，网络学习目标与非目标能量差、语音信号频谱特征、时序特征信息，利用空时频信息进行声源分离，然后采用自适应均衡技术进行频谱补偿，提升语音增强和分离性能，第三方实验室测试显示MOS分数实现行业领先。 3）创新声场音效运动声浪技术。融合V8S电机特性与实车风噪采样数据，开发噪声、振动、声振粗糙度（NVH）协同的运动声浪算法。通过全工况采集电机阶次声、风噪及系统噪声等背景声源，结合CAE模态分析进行避频优化，精准匹配实车NVH特征。设计原子化算法架构，优化计算资源与信号传输路径，构建超低时延处理系统，其性能表现获得行业高度认可。本项目充分支持《北京加强全国科技创新中心建设总体方案》的规划蓝图，有力促进北京市“三城一区”科创平台建设。申请专利50余项，发表SCI/EI论文50余篇，出版专著1部，一项北京市博士后科研资助，参与制定国家/团体标准10项，获德国IF奖等国际荣誉，14项软件著作权，G+行业评级。成果应用于小米汽车、手机等产品，创造显著效益。项目推动了声学、语音与AI的学科交叉，实现核心技术突破，形成自主知识产权体系，建立独特市场优势。
关闭