4月初,在网络应用市场上很久没有声音的微软突然宣布独立研发的在线英语学习引擎Engkoo隆重上线,而同日内,百度也宣布旗下的浏览器辅助软件百度工具栏与金山爱词霸网联手推出在线翻译服务,如果加上原先的谷歌、网易有道等老牌厂商,一时间在线词典和翻译市场显得热闹异常,大战似乎一触即发。那么他们各自有哪些优势,用户该如何选择呢?
我们先来看看在线词典市场。在谷歌宣布退出中国市场前,谷歌金山词典的优势在于传统词典的权威和品牌,然而这个2年前的强强合作在今天面临着灵格斯词霸、有道词典的冲击。据悉,有道词典的装机量前不久突破了3600万大关,这曾经是传统盒装软件12年才能达到的数量。现在谷歌放弃了中国市场,谷歌金山词霸是否将继续存在成为了未知数,而在在线词典产品上,装机量占有优势的有道会是唯一的受益者吗?最新的消息是QQ即将发布它的词典,这不得不让人再次注意到腾讯的野心和眼光,它在每一条可能的产品线上都不会放过任何的机会。
说完词典再看看在线翻译。从普通用户来看似乎是相似的服务。但实际上从实现原理和技术难度上这二者有着壤之别,基本上这就相当于带着“文曲星”出国的你和能做两会同声传译的张璐的区别。从词典产品来讲,除了词库的权威性之外,更多的是在软件易用性上的PK。更重要的是,目前很多的词典产品都是在印刷版的权威词典基础上进一步人工编撰而来。像有道词典的离线词库和即将推出的腾讯词典使用的国内一家小公司提供的词典词库,最原始的内容就源自基本大辞典,并过后期人工编撰而成,这样的静态词具备着权威、可信的先天优势。但在信息爆炸的今天,也有着一些不足,一方面随着互联网信息的海量爆发,原有静态词库的内容无法迅速跟上时代的发展,另一方面,人工编撰难免会出现细微的纰漏,需要耗费大量的人力和精力去不断校对,因此各家网络公司都开始把目光瞄向在线翻译以及网络释义,这也是为什么微软和百度纷纷宣布开始进入这一市场的主要原因之一。
那么什么是网络释义呢?以开创网络释义技术的有道词典为例,它是指有道搜索引擎在抓取并获得多达数十亿的海量网页数据后,利用独创的“网页萃取”(Page Extraction)技术进行信息理解、数据挖掘和文本分析工作,从中找出互为翻译关系的中外文词汇和句子,再根据它们在海量网页中出现的频次、位置等因素优化调整,从而得到的最佳翻译结果。这一技术创造出了中文搜索服务新的价值。几乎就在有道推出网络释义的同时,另一搜索巨头雅虎也宣布其桌面词典产品乐译又再次更新,之后仅隔了1天,纵横词典界11年的“老字号”金山也突然在其“爱词霸”网站上推出“网络释义”功能测试版,供网民免费使用。这些都说明了网络巨头们对搜索技术应用的看重。现在有道桌面词典更是将“网络释义”宣传作为其区别于传统词典最具变革精神的技术特色之一。
同样,在线翻译也采用了机器翻译技术的最新成果。机器翻译又分为规则翻译和统计翻译两类,可类比于武侠小说中的“剑宗”与“气宗”。在过去的10年中,统计翻译因为谷歌等搜索公司的投入有了很大的改进。基本上对于随机性的语句,统计翻译的效果要比规则翻译更简单易懂和易于改进,规则翻译则更讲究精巧对应,但从扩展性和机器学习能力上就略逊一筹。(百度所合作的金桥翻译,就是国内在规则翻译领域做的较好的一家服务提供商。)其次,即便在统计翻译中,又有以哪种语言为母语内核的区别。谷歌翻译支持的语种丰富,也因为全球互联网上英语资料的绝对领先地位,所以它的翻译系统是以“英语”为母语内核的,也就是说谷歌提供的任何两种语言的翻译中,需要一次后台以英语为母语内核的二次转换。这一市场的新晋来者--微软英库似乎是有备而来。微软英库的最大特点就是收录量大,词汇、例句都很多,另外还有office词典、百科全书等补充,词汇和例句均超过一千万。目前国产的有道翻译显然在英语母语内核这条路上暂时无法追赶谷歌,因此另辟蹊径以中文为母语内核的机器翻译,以发挥自己在中文数据收录上的差异化优势。虽然目前进展稍显缓慢,仅提供了中英和中日两种语言的互译,但是我们仍旧期望有道可以尽快提供中韩、中法等语种的服务。
网友评论