作为一家以AI技术驱动的公司,科大讯飞将全球领先的AI技术赋能讯飞输入法,语音输入1分钟400字,通用语音识别率达98%,独家支持22种方言语音输入,具备个性化识别。日前,讯飞输入法Android V8.0.6227新版采用深度全序列卷积神经网络(DFCNN)语音识别框架、多语言建模(Multi-lingual),辅以全球音素集(Global Phone)进一步优化方言识别模型,使22种方言语音识
作为一家以AI技术驱动的公司,科大讯飞将全球领先的AI技术赋能讯飞输入法,语音输入1分钟400字,通用语音识别率达98%,独家支持22种方言语音输入,具备个性化识别。日前,讯飞输入法Android V8.0.6227新版采用深度全序列卷积神经网络(DFCNN)语音识别框架、多语言建模(Multi-lingual),辅以全球音素集(Global Phone)进一步优化方言识别模型,使22种方言语音识别准确率相对提升20%。
在业内人士看来,无论人机沟通还是获取信息,输入法都是人机交互的核心要素,语音输入先天具备AI基因。自2014年,讯飞输入法开始通过AI增强方言表达能力,截至目前已支持22种方言语音输入。重要的是,讯飞输入法高度整合AI新技术优化迭代方言识别效果,使粤语、四川话、河南话、东北话、天津话等方言识别准确率达90%以上。
基于DFCNN声学建模技术
DFCNN使用大量卷积层直接对带口音和方言语音信号进行建模。首先,在输入端DFCNN直接将语谱图作为输入,相比其他以传统语音特征作为输入的语音识别框架相比具有天然的优势。在模型结构上,借鉴了图像识别的网络配置,每个卷积层使用小卷积核,并在多个卷积层之后再加上池化层,通过累积非常多的卷积池化层对,保证新模型可以出色的表达语音的长时相关性,同时具有短延时的准在线解码优势,从而提高方言识别的正确率。
采用多语言建模训练
2017年11月,讯飞输入法发起“方言保护计划”,短短1个多月时间便征集到海量方言数据。讯飞输入法研发团队采用Multi-lingual多语言建模,通过多方言数据共享方式进行训练。更准确的说,将征集到所有方言的数据训练模型中的共享层,用各地方言的数据训练模型中其对应的输出层,充分利用方言的大数据优势,优化模型训练。
统一全球音素集标注
由于历史原因,全国大部分方言和普通话没有使用统一的音素,互通性差导致机器识别困难。为了解决这一难题,率先采用讯飞多语种团队开发的Global Phone全球音素集,根据声学层面相似性,统一各方言的音素定义,从而适合机器“听懂”进行标注学习。如此一来,基于真实的用户语音数据,对方言识别模型做进一步的精进,从而持续提升语音处理和理解能力。
在很多人看来,AI只是一项黑科技,其实不然。讯飞输入法利用AI助力保护方言,让AI有温度。在语音识别成为引领人机交互的新引擎时,利用AI保护人类社会方言,进而传承地域文化。
另外,本次新版语音修复功能更显智能,除了修改替换插入功能外新增“清空”指令,例如“讯飞讯飞,删除所有内容”,凸显讯飞AI技术功底和对人性化操作的理解。
讯飞输入法AndroidV8.0.6227版更新日志:
1、方言保护计划:22种方言识别准确率相对提升20%
2、安装包瘦身10%,体积更小功能更强,新年就要瘦
3、语音修改新增“清空”指令,【讯飞讯飞,删除所有内容】
4、年终表情活动上线,一个表情总结2017
网友评论