王小川携虚拟主播亮相RISE大会 开可视化语音合成先河

互联网 | 编辑: 张梅洁 2018-07-13 10:32:53转载

2018年7月11日,央视主播“姚雪松”播报香港RISE科技峰会相关新闻的视频出现在主演讲台上方的大屏幕上。

(搜狗王小川在香港RISE科技峰会上展示虚拟主播)

 
2018年7月11日,央视主播“姚雪松”播报香港RISE科技峰会相关新闻的视频出现在主演讲台上方的大屏幕上。
 
他来了么?没来,是搜狗的王小川带“他“来的。 这是全球首个虚拟主播。
 
搜狗使用姚雪松1.5小时的音视频数据,结合语音、图像等多模态信息进行联合建模训练,输入一段RISE大会的文字稿,可以快速预测生成与真人无异的播报效果。

机器能够以“人”的形象如此轻松地播报新闻,背后是搜狗多年以来在AI上积累的技术实力。 7月份搜狗在Blizzard Challenge 2018上获得语音合成大赛冠军,而在上个月,搜狗的视觉研究团队获得了CVPR WAD2018 挑战赛冠军,早在去年,搜狗在机器翻译领域就已经取得突破,在WMT2017收获冠军,频频获奖的同时,各项AI技术不断推出,并逐步落地,搜狗的语音识别准确率已超98%,日均语音输入调用次数峰值达4亿次;唇语识别在垂直应用领域中的准确率超90%,以语言为核心,搜狗已逐步建立起独一无二的人工智能数据和技术壁垒。
 
提及本次发布的虚拟主播的技术难点,该项目的技术负责人表示:“最大的难点在于,让机器仅使用一段文本,来预测生成逼真度极高的视频,要保持视频中主播的音频和脸部表情、唇动能够自然且一致,做到如此逼真非常难。”目前市面上还没有类似的产品,通过领先业界的语音合成和图像生成技术,搜狗率先实现了虚拟主播目前的逼真效果。


虚拟主播在技术上的实现意味着AI具有了更丰富的表达方式从文字表达走向音视频的富媒体表达

虚拟主播技术的应用场景非常广泛。首先,作为具备视频内容生产能力的一项技术,该技术可以运用在诸如新闻、媒体内容等场景中,自动实时快捷地生成富媒体内容。

其次,虚拟主播技术还能根据用户上传的单张人物图片(明星、朋友、家人等)实时生成该人物的虚拟主播形象,用户可以与其面对面交流。

结合搜狗语音交互系统知音OS能力,我们可以让虚拟主播具备交互能力,使得该项技术可以应用于教育、医疗、客服等多个行业,节约大量的人力成本。如果用于教育行业,虚拟主播可以成为脾气很好的老师,不厌其烦地一遍一遍帮助用户进行发音口型指导。
 
此外,还可以应用于各种具备交互能力的智能软硬件。如果用于带屏幕的智能音箱,虚拟主播就可以发展成为虚拟私人助理,用户可以从单纯与声音的交互变成与一个逼真的虚拟人物的交互。
 
虚拟主播可能还会催生具有情感的交互App,比如帮助粉丝和爱豆实现“面对面”交互的追星App;上传用户自己喜欢的形象,结合搜狗的问答技术,可以与之进行定制化问答的陪伴App等。
 
虚拟主播究竟会以何种方式渗入我们人类的生活尚不可知,或许有一天将打破次元壁和时空无处不在;未来,不管是银行服务,还是电视节目,或是演唱会上的嘉宾,或许都可以看到它们的身影。
 
这位技术人员说:“后续,除了优先提升人机交互的体验外,我们也会继续优化虚拟主播的真实感,并在虚拟主播情感表达上做更加深入的研究。” 
 
他解释说搜狗这次展示的虚拟主播还没有添加“情感”,还显得比较生硬。


相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑