智慧语音联盟成立媒体专访记录

互联网 | 编辑: 钱嘉春 2014-09-29 00:00:00转载

百度也有它的搜索和语音搜索的功能,因为后面很多东西可能要通过云计算的一些运作,才能够获得比较好的云的体验。

时间:2014年9月24日(15:15--17:30)

地点:北京海航大厦万豪酒店B2宴会厅

主题:国内媒体团专访

记者:百度呢?

谢伟:百度也有它的搜索和语音搜索的功能,因为后面很多东西可能要通过云计算的一些运作,才能够获得比较好的云的体验。说白了很多都存在云的后台对你的帮助会很多,你需要什么帮助百度是中国最大的公司,它可以给我们很多硬件的支持。比如说我要提供一些生活便利的东西,我要问一些语音上面问,我要去那个地方去干什么事情,或者我问个什么问题,那么这样他能够提供一个文字,它就可以答复了。

记者:提供一个文字,然后你们就可以把它…

谢伟:通过文字合成技术,提供搜索内容。

记者:另外我想问因为这么多家怎么去磨合那么多家产业联盟?

谢伟:第一个现在刚刚开始,第一个是中兴现在不是在智慧语音这个事情上面,就是说我们现在已经推出了第一款的星星1号,实际上就是和产业伙伴是一起运作的,已经有一个磨合的过程了,在这里大家已经形成了一个很好的合作,其实我觉得形成这样一个联盟只是把关注度更加固,到后面一起从原来的语音时代的转变,这是产业联盟的一个宗旨,我们希望能够改变人的生活方式。

记者:现在这个是不是还是苹果占据着一个比较标杆的?

谢伟:苹果就是把大家带到触摸屏时代,我们希望通过中兴这个"智慧语音联盟"希望把大家带入到语音控制的时代。

记者:但事实上大家可能就是说在技术还有生态圈里面苹果应该算做的最好的。

谢伟:像iphone的时候就有,主要就是咨询的一个东西,我们希望未来来讲这个真的是在整个系统手机操作系统里面在系统里面语音化,siri是一个应用,这个是有区别的,我们是整个系统语音化,不光是唤醒应用,,可能很多地方都可以用到的。唤醒应用比如说我刚才说到拍照,以前你非得要按一下才能拍,特别是拿着一个手机是触摸屏,你伸到远远要拍的时候大拇指按键是很困难的,现在就一句话"拍照",这个事情我们在外面旅游的时候也进场会用到这个功能,其实挺实用的。还有你要找某个人,你说个"刘德华"搜索还是比较慢的,你把手机拿出来说刘德华很快就播出去了,你是常按某一个键,特别是生活中遇到应急的事情,现在我们做的是你一喊拍照马上就拍了,这个应用其实很多生活场景中可以用的,还是比较不错的。另外我们是云加端方案,siri是存云端方案,识别率反应速度受环境影响非常大。

记者:星星1号语音的识别率能够达到多少?

谢伟:识别率实际上统计意义下的数据,我们经过多人多场景测试,比如驾驶助手每个版本发布之前在高速,市区,开窗,关窗,多人进行严格测试,驾驶助手POI地址在开窗场景下测试结果84%,名片夹1500人名在普通办公环境下测试识别率90%以上。

记者:这个对用户体验会造成影响,但是达到多少才能够非常流畅的用户体验?因为我们之前有体验就是车载那个,你给它播个电话,说个数字,哪怕一个数字错了就要重新来?

谢伟:你说的这个是一个方面,第一个就是人跟人之间的交流也存在听错的可能性,人家说这个东西可能你也没有听明白这种可能性也是存在的,人家报数字,电话号码你也得来回确认。这个不一定能识别的那么准确,这个也是很正常的,人与人都存在识别不准确的情况。你刚才说的那种复杂、麻烦,你说你要报一个手机号码12345678910这样来报的确来讲,报一个电话号码的确会有点困难,正常来讲最好的方式还是直接报一个名字更合适一点,我们大多数使用场景还是直接会是一个电话里面的名字,名片夹里某个人拨打,专门播号码我们也在不断地提升,目前可以达到很好的识别率. 

记者:开车的时候手是没法播的嘛。

谢伟:开车的时候可以这样去呼叫这个也是没有问题的,手不太方便用语音呼叫,我觉得还是比你要停下来,再输入总比这个要方便。比如平常你要去播一个电话号码不要用语音,135什么什么的,其实你完全可以用键盘直接播出去,比语音播出去更快,我是这个意思。

记者:识别率能够达到多少?在用户体验上才会?

谢伟:我认为90%以上用户能够接受的。

记者:90%还是实验室状态?

谢伟:不是,是我们针对驾驶室内,办公室,路上,家里等日常生活场景中经过严格测试得出结果.    

记者:我们是怎么考虑的,会不会以此作为一个新的盈利的方式?

谢伟:中兴通讯为什么手机产品叫做精品战略里面把语音产品作为一个很重要的产品方向在做战略投资,也是为什么建立语音联盟,"智慧语音联盟"做这个投资,其实也是这个目的,我们非常看好这个方向。

记者:比如说模式上呢?你们现在有没有一些外围的一些合作伙伴?比如说和银行的,家电、制造的。

谢伟:目前还是在和"智慧语音联盟"里面在合作,未来中兴通讯也可以推出这个互联互通的战略,在这个战略里面因为我们中兴通讯也是面向不同的行业跨地合作,因为这个事业部已经成立了,今年已经在很多地方,比如我们跟银行的合作,现在也一系列的合作都已经开展了。所以跟农业的合作,跟银行的合作都已经在做了。所以关于语音的产品今后跟行业的合作这个未来肯定也是会考虑的。至少来讲比如说如果说我们的系统产品都语音化的话,那盲人可能用这个语音就很方便,盲用的事情上面也是可以考虑合作的。学校、民政的各种合作,这些都有很多的一些需求。

记者:在提高识别率方面您觉得现在它的障碍在哪里?因为好象有点类似于机器人的技术,人工智能,到了一定程度比如说百分之九十几再往上提是很难的。

谢伟:30%提高到90%是很容易的,但是90%提高到95%难度技术是比较大的,需要一个过程。但是这个技术这个事情目前也不是碰到瓶颈,实际上这个过程就是在不断的发展,我觉得不是叫碰到瓶颈,需要技术不断的发展,不断的往前推进,以前语音这个事情大家关注度还不是特别够,在整个产业链上语音的事情还没有达到这样,语音真的进入语音控的时代的话,越来越多的资源更集中的话,一定会达到比较好的识别率的突破和提升。我相信这个未来会有一个逐步的提升的。

记者:大数据这种数据和云计算这种技术会不会是突破的方向,比如说大量的声音搜集到库里面然后进行搜索?

谢伟:你说这个应该是一个,随着大数据还有云计算的发展今后可能就是在通过一个大的数据里面,因为可能很多人都在说同样的一句话,以前的这种可能就是一个文字的翻译,今后可能通过大数据和云这个翻译,真正是通过上下文的理解,语意来理解你的这句话,那么准确率肯定会有大大的提高,我们跟外国人在交流说话的时候,你的英文发音虽然很不标准,但是就算你那个词缺了,但是整个话不标准,但是并不放百他听懂你整句话的意思,在大数据云时代做好的话,这里面有些话识别会有问题或者怎么样,根据上下文的环境,数据库里面积累的海量的数据,比对分析拿出一个比如说80%的面对这样一句话会是什么意思,它会有个很好的理解。其实我觉得文字识别、语音识别这个事情达到一个比较高的境界,最终的目的还是让他明白你的话的意思,含义嘛。所以说这一句话虽然说没有完整的识别出来,你说这是一句话,可能这五个字不是整个都识别出来了,但是可能就从这个意思上面把你这个都已经明白了,那么这个准确率就会达到100%,那就很容易了。

记者:跟机器翻译,还有什么?

谢伟:对,就是所有人讲话的东西最终是在表达一个意思,含义,最后我们通过大数据把这个意思能够明白出来,那么就非常准备了,这样的识别是最高的识别。

记者:你们跟联盟合作的时候他们有提到这个吗?

谢伟:因为以前本地的这个,说句实话很多地方网络连接流量可能大,费用比较高,或者网络连接不方便,这个时候如果在云端上会很不方便,包括4G的带来,包括未来的5G技术,可能这个数据资费也便宜了,第二数据的通道现在越来越丰富了,所以这样来看今后在这个事情上可能性还是比较大的。

记者:你们今后的定位和研发是什么?

谢伟:这里面几个企业,像高德是做地图的、百度是做搜索的、还有NUANCE、Audience,还有像中科院是研究所一个机构,技术研究所的机构,我们来讲是一个产品的公司,我们把这些好的思想想法能够结合到产品上面,真正给消费者带来便利和生活上的便利。

记者:未来成品会有什么样的形式?除了手机?

谢伟:可能这个是这样子的,目前第一步主要体现在手机上面,像我们发布的星星1号是这样子的。

记者:怎么评价就比如说腾讯它自己的语音什么开放平台然后移动好象也有自己的语音实验室,好象每家企业都有自己的一套。

谢伟:所以这就是我们成立"智慧语音联盟"的初衷和想法,我们现在就是因为各个地方都有自己语音的识别室,我们希望能够集合大家的一些资源,大家的智慧,那么这样的话真正能够进入到一个语音的控制领域这样的一个时代。

记者:"5A标准"是什么意思?  

谢伟:就是Anyone、Anyhow、Anytime、Anything和Anywhere这五项。

记者:这个联盟里面怎么没有科大讯飞?

谢伟:我们是首届语音联盟,我们抱着OPEN的态度,我们欢迎有意愿的更多厂家参与进来.

记者:更强调应用是吗?

谢伟:更强调给生活带来一些智能的一些变化的东西。我们这个有一个提炼,科大讯飞并不是没有邀请,但是他们拒绝了,但是实际上作为未来的话,我觉得都会是一个很开放的心态,我们主导这样一个智慧语音联盟也会参加中国语音联盟的那个联盟,是一个开放的心态。

记者:政策上现在有没有什么标准出来?国家层面的?

谢伟:关于语音的标准目前好象还没有专门的一些规定。目前还是一些空白,目前我们没有了解到在语音上面,可能就是在语音技术上面像识别技术、文字合成技术,声音识别技术这些方面可能会有一些标准、规范,但是在整体上面国家的标准规范,现在科大讯飞在中国搞一个中国语音联盟,我们搞一个"智慧语音联盟"实际上都是民间企业在做和运作。

记者:因为手机厂商你们做这个肯定是希望语音能够成为自己一个卖点,但是这些联盟企业其实也不是单独给你们用,你们这个中兴有多少是你们自己核心的东西,是不是其他的厂商很快就能合作跟上来?

谢伟:首先这个问题要分开来看,这个语音的东西最后呈现给用户的,也就是给用户带来价值的是语音产品,这里面除了硬件芯片和语音识别技术以外,更重要的产品规划思路及方向、产品整合和前端用户交互的能力,是一个整体解决方案,而这其中最后一点是我们的核心竞争力,别的厂商是不可能一下两下就能够完成的。这个比如小米也做了米聊,腾讯做了微信,但是最后微信胜出来了。

所以,这个最后即使其他的厂商合作了,也不可能一下就能跟上来的,这需要一个量的积累过程。

记者:这种抱团式的联盟,你估计今年会不会更多?

谢伟:也许有可能吧,但是我觉得其实像科大讯飞在中国语音联盟也不算是一个抱团式的,它当时是在中国的,我们"智慧语音联盟"还不是说在中国,因为我们产品在北美也是卖的很多,我们是一个开放的企业,像中兴、华为还有小米联想都加入进去了。也都有。

记者:你自己单干也行,为什么拉拢这些人一块,做一个联盟去做呢?

谢伟:这个是一个生态链,光靠中兴一家做这个语音产品,这边还需要硬件也需要有一些技术突破,软件也有需要技术突破,我们需要产业链的一些辅佐一起来每一家发挥自己的长处,强强联合形成一个生态链。

记者:你们专门有一些人抽出来一个团队跟他们对接吗?

谢伟:有。

记者:这个团队叫什么?

谢伟:在我们内部就是语音产品的团队。

—————谢伟采访结束—————

记者:我现问一个问题,我使体验过驾驶助手这个应用的,当时环境比较嘈杂,体验非常不好,我想问一下我们现在这个技术难点或者挑战到底在哪里?我们需要多长时间来解决,可以想象用户在一天中环境很理想的话这种情况是非常少的,降噪这些技术是不是可以有大的难点还可以考虑。

韩静:是这样,首先我们是在不断的优化中,像原来说在噪音环境下识别率不高,其实有几个方面原因,但有一方面是识别率问题,还有一方面我们人机交互这方面存在一些问题,所以我们在这半年在不断的改进人机交互,举个例子原来体验慢是主观的感受,其实它深层次有很多问题,举个例子,像体验的时候要首先唤醒,导航的时候再说目的地给出很多侯选词,你说关键词是不是这个,要选择,可能选择完了之后又有几个目的地的地址,然后再找到,整个交互体验识别率又不行,好象这个体验很差,我不想去用,但是这半年我们持续的优化,我们可以达到大部分的产品70%的场景是可以的,这样唤醒了以后说我想去那里,省去了关键词,省去了目的地,所以这种是用户常用的,我们把它搜索出来,对你你的体验感受就是说我一下子就成功了。其实这是一方面,刚刚你说的噪音环境下,你开的车速是多少,然后把窗户打开,识别率肯定会降低,这肯定是这样的,但是我们现在也在去想各种的降噪办法,在明年6月份之前我们可能会考虑在车上采用定向的,对着驾驶员去解决在环境比较恶劣的情况下能达到一个很好的识别率,所以我们同时在几个方面。

隗铂仑:我稍微补充一下,你是在车里用还是?

记者:我是在车展。

隗铂仑:全十多厂商都是我们的合作伙伴,车的噪音跟环境不一样,车的噪音主要来源是风声,发动机的声音和玻璃振动的声音。

记者:这也是我想问的,驾驶毕竟是一天当中非常少的时间段,语音迅速都能派上用场。

隗铂仑:我稍微多解释一点,因为噪音绝对是语音里最大的对手,我可以请您在车上使用一下驾驶助手,在展会里面有人声,声音的平复是非常相近的,这是最难攻克的一个地方,我们做了很多事情,首先我们把我们的麦克风降噪,因为现在手机都有三个麦克,所以我们在汽车上后视镜上面有两个麦克风,它可以把噪音屏蔽掉,我们现在有一个规划,其实我们已经做出一个雏形了,利用手机上的麦克风来解决两个东西。第一个是我说的在嘈杂的环境里面在人声的混合的这种情况下。另外一个我们叫做回响,尤其是像今天这种会议,回响是非常响的,它也是语音的一个天地,把我们SSA的技术从汽车行业放到手机行业,我相信在很快的将来就可以实现60%、90%,100%当然很困难了,但是我们为了这个目标努力,但是大家任何情况下都能享受到这个,这是我们的终极目标。

林明璋:辨识方面是专长,都能起到非常好的方案。回答你的问题,辨识很好但是就是在现有的场景底下这么多的噪声怎么去消除达到比较好的情况,正确的语音能够传输到对方达到很好的辨识,这就是目前很困扰的一个地方。噪声的降噪我们出了第四代的办法,在整个噪声的抑制上面我们有很多办法,第二个我们提供很多的解决方法,包括全向性的降噪,然后包括像刚你们也看到我们在做4G上面的,宽带的情况下很多噪声都会进来。第二个就是语音识别这块,语音识别我们最早应该是跟电视厂商,电视厂商在做云视频的话在实验室里面识别率非常高,但是不幸的是外面很嘈杂,销售人员怎么在外部环境下卖出去呢?所以他们来找我们,我们才跟他们一个很好的结合,在前端的抑制来讲,让整个噪音环境减到最低,所以我们在很早之前就有一个电视厂商做这方面的工作。这次由于车载应用也非常的广泛,所以刚才讲到,进入到我们第四代的情况下,我们做了很多的突破。

韩静:我们现在跟Audience合作提高了很多,我们中兴也有一个算化组,可以说在噪音环境下识别率提升20%,同样的情况提升20%,这个产品在不久会应用我们的星星上面去。

记者:我想问一下我们中兴手机是不是会选择一个技术突破的路线,在云这边投入大概是多少精力?就是在语音这边我们中兴的手机在语音这个领域是不是投入了非常大的精力感觉我们中兴的手机走一条很硬的技术路线?我举个例子,小米想把一些快递一些电话传到手机通讯录里面,非常的简单,只要加进来大家用着很好用,我们做这样一个语音科技含量比较高的东西感觉会很好,非常难推进,因为我们事实上现在是应用从60%升级到75%,对于技术来说是一个非常大的进步,但是对于用户来说就是还没有突破,体验并没有那么大,我想听一下你们对这个怎么看?

韩静:我们调演过用户对语音的感受,我们调查的结果其实用户对80%左右的识别率他认为都是满意的,并不是说,但其实我们是追究极致,我们希望我们的识别率达到96%以上,在各种环境下,但是这是目前还没有达到,但是在特定的环境下可以达到90%以上,我们目前所做的一些名片夹搜索号码,搜索姓名,音乐播放和拍照这些识别率在北京展上基本上是80%,北京展大家也知道,我们地面是低音炮在不停的放,我们在展厅上放基本上能达到80%左右,低音炮不是很响,在正常的情况下我们识别率已经达到90%以上,这就是我们的追求,我们通过用户体验希望达到更好的体验,从用户的使用习惯来讲去达到一个好的效果。

林明璋:中兴在这方面真的是下了很深的精力。

记者:今天下午在中兴的会场,大家无数次的提到中兴,它就被无数次的唤醒。

韩静:你的版本是什么样的?

记者:我自己平时没怎么用过,但是今天就不断的被唤醒。

韩静:你打开了云助手被唤醒的打开了,我们当时选择了希望识别率更高,就是被噪音唤醒相对比较高,我们对比过很多其他厂商,在这方面我们无视率是最低的,就像在这种环境下不断的被唤醒,我们在7月15号以后的版本已经改进了很多,因为增加了自定义,带有你的声纹需要你尝试一下最新的版本。

记者:我们讲用户习惯,对于手机用户来说对于下一个手机的期待,就要是,比如说像蓝宝石的屏幕,像可穿戴的,都是大家比较期待的,但是语音唤醒你现在要跟蓝牙耳机竞争,就是说为什么在这么多很有噱头的一些应用中大家选择了智慧语音,为什么你们觉得智慧语音改变现有触碰的模式呢?它有什么吸引。因为就像小电影描绘出来的场景,我可以说现在基本上短期不太可能实现的,对吧?

隗铂仑:其实不是,我们电影真的是80%实现了,各个不同终端上面的互联。我稍微补充一下刚才韩静说的一些东西,语音识别,为什么语音觉得大家觉得有些不满意,是因为语音是个太自然的东西,我们本身就会把它作为一个,我要跟它交流,就等于我跟人机交流,大家知道就算在嘈杂的环境里面两个人面对面说话有时候也要重复一遍,在技术上面是在演进的方式,能提多少就提多少,在用户体验上我们也做了一些调整,如果自信心不够高的话就会进行对话模式,人机对话模式,你打电话给谁,如果那时候非常不巧,他正要打电话,但是没有找到,他就会问,他会再确认一下,或者让你再选择一下,我们尽量从用户的角度来说来弥补这个技术和用户的期望值,现在的这个差距。但是我相信在大数据的操作下,在用户习惯的改变下,因为其实用户用的越多,越自信,在本地训练,从逐步逐步的,需要一定时间的累积的。为什么和中兴合作大家说蓝宝石弯曲屏幕这很有噱头,因为它是可视的,但是语音这东西实在是太不可见的东西,因为人的本来期望不太高,语音技术的成熟度,市场的接纳程度和用户愿意用的程度已经达到了非常高的级别,我们就是在这个已经比较完善的这样一个情况下想把它做的最好,这也是我们为什么想选择语音做一个突破口,一旦走到语音这条路上,以后你和其他厂商的差异上就拉的很大。你有弯曲屏幕我也可以有弯曲屏幕,但是语音这个东西需要累积门槛没有那么低地

右一:可能所有的用户对语音的期望太高,然后在加上我们在做宣传片的时候又做的很自然,就把用户的希望提到更高,然后实际上虽然我们还有百分只十几的识别率还没有达到,用户的识别率马上就会下来。如果你告诉他你只能给鹦鹉讲话,大家会认为你给的就是鹦鹉,但是我们给他一个高于鹦鹉的东西满足率就会高了。再回答你刚才那个问题,为什么我们没有学很炫的东西来做,就是语音交流非常的难,我们才组成这样一个联盟,不断的去推进不断的去从语音识别还有终端设备厂商一起,一点一点的去做一个难点一个难点的攻克,包括展会我记得你来过,我也演示过给你看,为什么我们会继续去做这样一种事情,因为我们如果持续的做这种技术难点,我们就会在应该是在从量变到质量的过程给大家一个非常好的体验。那个时候大家可能不会再说我们现在再做的事情是一个看不到希望的事情。

林明璋:我们也希望有一些应用的解决方案。蛮多的部分您刚才所讲的,有些东西你看不到,怎么样结合这些东西所谓传感器的互动,实际上这是蛮难的,一些穿戴性的产品结合你的声音提升更高,因为你可以从穿戴性产品里面现在只能侦测到什么样以后,没有办法侦测到你呼吸的状况,你翻过几次身这些东西对客户现有的这些基础去做一个很好的声音。更有很多的想象空间就是说,现在手机还是在所谓的功耗上面还是一个很大的困难,怎么样能够更有效的,或者更智慧的控制你的手机,怎么能达到一个什么样的状况,后续的产品会有的。我刚刚讲了,声音跟传感器的结合,手机放在口袋里面就会做很多事情,第一个包括我可以把屏幕关掉,本身我这个动作跟声音的工艺,甚至于你把它放到皮包里面,我会自动的把音量变大,在现有和往后技术的基础上可以让应用层面能够更广,应用的层面能够更广。

记者:现在在那些场所识别率最高,刚才说了车内驾驶,还有哪些?

隗铂仑:其实语音用的行业非常的多,我们说的扩展一点,因为三个大部门是跟语音有关的,另外一个就是健康。你知道医生在看病的时候我还要一遍记状态,所以我们有专门的解决方案,医生戴着耳麦一边说一边转车文字,自动变成电子稳当,这个是一个医务场景。而且是在这个医院,还有我们在呼叫中心,以前呼叫中心都是人工的,大大省了90%以上的人力资源,还有就是语音这一块,还有就是汽车领域。我觉得您刚才那个问题就是有点尖锐而且我是这样觉得,从整体来说,我认为语音首先是要让用户用着习惯,愿意用语音得到更多数据。用的越多越准确。第二个就是普及性高,大家可以试想一下这个概念,微信还没有想象到,你能够想象到很多人在路上拿个手机这样说,他是用的微信的那种语音通讯的功能,在两年前是不可能的,我在路上还对着它乱吼,其实这种用户已经有这样的感觉我愿意去用语音了,就是说他们只不过没有意识到,因为语音有些特殊的场景语音是完全有价值的,但是很多情况下语音必须要和NUANCE绑在一起才能真正的有价值,所以我们花了很大力气去找到NUANCE,一开始没有做到大而全的,从车载开始的,最容易培养我们的技术,培养用户习惯,然后拓展到系统级的语音助手,将来和各种传感器加在一起,这样会让人们的生活越来越美好,当到这个时候您那个问题已经不是一个问题了,因为用户已经改变了用户习惯,就像我们从硬按键到触摸再到语音这个过程,分分钟能够改变你交互的习惯,分分钟引导这个行业的变革,现在来构件这样一个生态系统来做排头兵,来引导世界上在语音的下一步的发展方向。

记者:我这里有两个问题,第一个问题我们今天的会比较专业,但是从中兴的粉丝来说可能相对比较喜欢。比如说在未来可见的时间点之内我们可以看到中兴是不是价值之外的新的应用。第二点我们语言识别率目前是90%未来某一个点上会有提高。第三个提供语音唤醒功能是不是会延续到中兴其他的产品中。另外就是NUANCE提到能力可能有80%可以实现,是否在中兴上得以体现?

韩静:第一个问题您刚才问驾驶以外是不是中兴会扩展其他的应用。中兴从两年前开始做的第一个产品,但是从今年年初我们开始做本地的云助手,我们刚刚在会上已经说了,我们是系统,其实已经做了我们现在做了有拍照、音乐、设置、打电话等等这些应用,这些已经语音找文字这些都已经做了,我们刚刚在会上也说了,我们到明年的6月份我们是要扩展到更多更多的应用,这是我们未来的一个规划。

记者:您刚才说系统性的应用是什么样的?

韩静:举个例子,你在拍照的时候可以拍照的过程中可以自拍,打开闪光灯摄象头可以用语音来控制。就是说我们现在做的是用户最常用的应用里面可以语音操控,就像听音乐的时候调高音量,下一首之类的,一般人打电话都是拿到耳边,拿到耳边就要说打给谁,我们不是改变用户的习惯,我们是接近用户的习惯。

记者:第二个12月份会发行什么?

韩静:我们需要加入更多的智能功能,我们结合传感器的功能,结合大数据,我们会把语音做的更好。我们会在系列上主打语音,我们会在星星系列上主打的。

隗铂仑:我就快速回答您的问题,大家知道三星来说,三星有手表也是有这个技术,三星有智能加剧,有家具、有手表、有PC、有手机、所以说我们和三星的关系是合作伙伴,所以很多东西都可以共享的。中兴其实是我们在我们的Audience和手机有合作,所以就是说这并不是重点,重点就是我们80%的场景实现也需要有终端厂商的支持才能做好,不代表我们一定要找这个公司所有的全部都串在一起,相反我们有很好的开发,在任何时候都可以打断,这样可以增加用户的效率,尤其是在车载语音,现在很多解决方案就是说有三个短讯过来,我们就打段功能大大增加用户的效率,在读的时候我就可以直接跳转,这是一种创新,这是没有在任何厂商存在的,但这的确是利用了我们的想法,我们内部去做一个研发,然后找我们非常好的合作伙伴实现出来,因为这需要我们顶层的设计,我们一定要合作,互相深度集成才能做到的事情,我没法直接回答你80%的厂商,但是我可以回答你我们各个领域都有厂商合作,但不一定是全部的,而且是部分的。

右一: 适合我们一起碰撞的那个结果,有时候他的过来以后,我们设备厂商还会进行一个用户的融合,可能会根据用户的一个需求来不断的去改善,最后来形成我们碰撞后的。

记者:在中兴的手机上未来最可见的是哪几个能力呢?

韩静:就是说他们的一些技术结合了中兴的一些创新的规划,给中兴手机带来了很大的差异化,但是这个差异化给用户主要是给用户带来哪些它的更好的体验。

记者:是体验而已?

韩静:主要是体验,语音我们最终讲的是体验,无论用什么创新的技术解决的是体验的技术。

隗铂仑:因为NUANCE是一个非常擅长创新的公司,所以我们经常有工程师、产品部、然后研发部碰撞在一起然后找到一种最合适中兴走的一条路,最能走差异化的路,因为每个厂商的侧重点不一样。

记者:谈论一个客观环境排出噪音的问题,比如语速的不同,有的人说的慢,识别可能效率低,或者是有的可能有口头禅识别率也低,咱们这方面有没有解决方案?

隗铂仑:我先说一下,NUANCE角度来说,比如说从14岁的孩子,发育过程中但不属于孩子,也不属于成人,孩子和一般人的声音,老年人的声音我们都有一个追寻模型的存在,这样是经过大量数据的累计才能形成的,所以忽然有一个新兴的声音,我们会用这个模型共给,然后在用户的过程中我们搜集到很多用户的说话方式,我们就逐步的,因此我是有能力自适应的,这是第一,你没有数据很多功能谈不下去,等到了一个临界点的时候就有一个老人的声音模型,这样的话广泛意义上是一个累计,门槛高也不高,门槛低也不低,就是因为有数据做支撑,需要用户去用它,用户不用它就是一个摆设。高大上的东西用户不去用对我们来说就是一个失败。

记者:识别率是90%,那么我们的标准是通过什么方式去统计的?

韩静:这个主要过我们手机多少个用户对于这个,举个例子,我们名片夹有1500个名片,让他从中再选100个去识别,多少个能够成功?这只是一种测试方式。

右一:语音识别最后的结果是统计学,因为用户有时候就是说他可能试第一次的时候没成功,就有否决的结果,这个是一个不科学的判断。

韩静:因为统计学还要区分不同的环境噪音,多少人都要统计,要用大数据去统计,而不是用两个人平移85%,这不是,它是一个大数据的概念。

隗铂仑:识别率真的是一个非常重要的问题,识别率是一个多维数据的统计学,包括了噪音,包括了距离,你能说我在50厘米和50米之外的速度,口音、速度、方式、各方面都会有影响的,所以为什么我们说没法,当然我们实验会去做这种,我们就把这些几维的数据控制在一个范围,我们这样来做,但是我们做的最多的也就是中兴花的力气最多的,用户觉得爽就爽了,这个情况下我们就找大量的用户来测,在各个不同场所里面我们得到识别率,这样其实是一个最客观的,最好能做好统计学的概念,这样才能帮助我们把产品做好。

主持人:行,非常感谢今天的各位领导,后面还有更多的机会大家再一起交流。谢谢!

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑