2023年中国国际大数据产业博览会领先科技成果正在火热征集中。近年来,小米公司深耕大数据科技领域,多次参加数博会,展出行业领先科技成果。2022数博会开幕式上,小米公司“新一代Kaldi”项目,凭借全自研的创新成果和突出的社会价值,荣获“数博会领先科技成果奖·新技术”奖项。
小米新一代Kaldi究竟为何能获此殊荣?这项技术又会给我们的生活带来哪些改变?我们来一起了解一下。
Kaldi是流行的开源语音识别工具。大量的语音团队都在使用Kaldi引擎来开发智能解决方案,人们所熟知的“小爱同学”“苹果Siri”等语音产品,背后都离不开Kaldi。Kaldi,被认为是业界公认的语音识别框架的基石。
新一代Kaldi背后 有哪些强大技术
新一代Kaldi作为完全自主研发的原始创新成果,功能强大的背后,离不开大量的先进技术和创新点,可以简单概括为三个子项目、两项关键技术,四大创新点。
三个子项目
1.相较于其他一些语音识别库的优势,速度更快,具有通用性强(可以用来建模多种语音识别算法)的核心算法库k2 。
2. 更加方便易用,在语音领域使用更为广泛的数据准备工具——通用语音数据处理工具包Lhotse。
3. 大大降低整个语音识别过程耦合性,同时也拥有方便网络结构复用的示例脚本集合部分——语音识别完整解决方案Icefall。
两项关键技术
1. 支持GPU的不规则张量,让新一代Kaldi适用于各种不规则数据的高效运算;
2. 可微分的加权有限状态自动转换器,极大简化了序列建模的任务。
四大创新点
新一代Kaldi针对“上一代Kaldi神经网络定制难”、“端到端模型研发过程中训练和解码不一致”以及“如何进行端到端模型的高效训练和部署”等问题进行了攻克。其引入的解决方案极具创新性。
1.运用可微分的加权有限状态自动转换器进行序列建模,极大地扩充了语音识别建模方式的可能性;
2.实现置信度逐步提升的多级解码方法,让用户可以根据产品对性能和效率的要求选择使用对应层级的解码方式;
3.支持语音识别全流程的GPU加速,进一步降低系统延时;
4. 提供端到端语音识别系统的构建范式,极大简化了端到端语音识别系统构建的工作,从技术和规范层面形成更先进的生产力。