项目编号 | K08-2025-J141 |
项目名称 | 面向座舱复杂声学环境的高性能声学语音系统关键技术研究及应用 |
候选单位 | 小米汽车科技有限公司 清华大学 北京工业大学 中国科学院大学 小米通讯技术有限公司 北京小米移动软件有限公司 北京小米松果电子有限公司 |
候选人 | 宋其岩 欧智坚 贾懋珅 黄晓玥 吴俊楠 鄢社锋 张涵诣 王育军 张俊博 吴宇轩 李洪丰 刘孟美 |
项目简介 | 智能声学语音系统作为人工智能产业化落地的战略载体,是国家发展和改革委员会《智能汽车创新发展战略》中要求实现技术突破的核心关键领域。
汽车作为智能化科技产品,其座舱声学语音系统对提升驾驶体验、安全性和科技感至关重要。然而,现有系统性能不稳定,易受环境干扰。研发高性能声学语音系统并实现产业化,对提升汽车及智能设备性能、提升国产汽车竞争力具有重要意义。
本项目利用AI技术提升车载音频系统性能,涵盖语音交互、通话系统、声浪音效等核心功能。团队融合高校科研与企业经验,突破声学、语音与AI交叉领域关键技术,研发出国际领先的技术成果与产品,主要科技创新为:
1)轿车声学大模型及五音区交互系统创新算法。提出国际首个超1B参数的dasheng声学大模型,采用超70年的海量多领域音频数据进行自监督训练,通过ViT时间粒度优化和一致性蒸馏技术优化模型,舱外语音攻击防御率达到99%,实现国际领先;提出家用轿车五音区交互技术,通过多目标分类算法划分声学空间,网络融合能量谱、压力传感、声纹等多模态信息进行音区识别,识别率达98%,达到国际先进水平。
2)基于传统算法与神经网络深度融合的智慧多功能通话系统。提出快速波束优化技术,分别对目标/非目标进行空域滤波,并与麦克风数据作为网络的输入,网络学习目标与非目标能量差、语音信号频谱特征、时序特征信息,利用空时频信息进行声源分离,然后采用自适应均衡技术进行频谱补偿,提升语音增强和分离性能,第三方实验室测试显示MOS分数实现行业领先。
3)创新声场音效运动声浪技术。融合V8S电机特性与实车风噪采样数据,开发噪声、振动、声振粗糙度(NVH)协同的运动声浪算法。通过全工况采集电机阶次声、风噪及系统噪声等背景声源,结合CAE模态分析进行避频优化,精准匹配实车NVH特征。设计原子化算法架构,优化计算资源与信号传输路径,构建超低时延处理系统,其性能表现获得行业高度认可。
本项目充分支持《北京加强全国科技创新中心建设总体方案》的规划蓝图,有力促进北京市“三城一区”科创平台建设。申请专利50余项,发表SCI/EI论文50余篇,出版专著1部,一项北京市博士后科研资助,参与制定国家/团体标准10项,获德国IF奖等国际荣誉,14项软件著作权,G+行业评级。成果应用于小米汽车、手机等产品,创造显著效益。项目推动了声学、语音与AI的学科交叉,实现核心技术突破,形成自主知识产权体系,建立独特市场优势。
|
关 闭 |