第三代搜索现形

互联网 | 编辑: 毛付俊 2006-03-07 12:00:00原创
春节刚过,从美国回来的高潮博士找到我,告诉了我一些有关成功将基因技术与可变间隔模式识别技术融入搜索引擎的情况。

我看到第三代搜索引擎现形。



什么是第三代搜索
第三代搜索引擎和第一、二代搜索引擎的区别在哪里呢?这是我在高潮还没打开他的笔记本电脑前向他提出的第一个问题。

高潮认为,以雅虎为代表的90年代的第一代搜索引擎采用了反向索引技术,主要是以搜索关键词的方式来实现搜索的。但由于网站狂起,多得让第一代搜索引擎感到乏力,因此以Google为代表的21世纪初的第二代搜索引擎采用了关键词加网站链接分析的方式实现搜索。而第三代搜索引擎则是基于句子、短语的内容搜索。这几乎是一个穷尽搜索需求的高级境界。也就是说不可能再产生第四代搜索技术了。


第三代搜索技术态势如何
据高潮介绍,包括Google、微软以及许多专业搜索公司,对第三代搜索引擎相关技术、产品的研制都处于正在进行时,目前尚无成功产品,更不用说商品。

一个叫Senopy的公司,他们正在使用自然语言研制搜索引擎,但速度慢到了让用户难以忍受的地步(一般用户的等待时间约在秒级)。还有一个叫Trovix.com的公司研制的基于内容的搜索引擎需在离线状态实现,典型的应用案例就是搜索与工作岗位需求对应的求职者简历。而高潮则发现将成熟的基因排序技术和可变长度、可变间隔技术切入搜索引擎,可将基于内容的搜索智能化,并且速度提高千倍。


基因与中文有共同处
基因是由4个核酸和蛋白质、20个氨基酸组织排序而成28000种状态,中间无间隔,而中文的词与词之间也无间隔(英文的单词与单词之间有间隔)。要基于短语、句子内容搜索,就要准确地识别句子的可变长度和可变间隔,后者的识别难度更大。如:“中文和服装是两个不同的话题”这句话可能理解为中文、和服(日本传统服装)装是两个不同的话题。而英文的可变间隔则可用已有的分词实现:I like movies和I like action movies very much。我喜欢电影和我非常喜欢功夫电影,这两个句子充分表现了可变长度和可变间隔的分词状态。


高潮为什么使三代搜索快
高潮的第三代搜索为什么会快于传统搜索千倍呢?这是基于一个算法:

如10!=36288002>>2×(10/2)!=240,后者显然比前者小1000倍以上。

这不是很容易模仿吗?不,高潮说,如果做不到可变间隔识别,就完不成基于短语、句子的快速内容搜索。

传统的搜索引擎算法是把关键词作为向量坐标,而第三代搜索则是把短语和句子作为向量坐标。


高潮需要合作伙伴
看了高潮的搜索演示后,觉得前面的介绍并不是嘴上、纸上谈兵,他的搜索不仅快,而且完全基于短语、句子。

高潮只是为了说服我相信他的技术吗?不是,他说虽然他在技术方面很强,但需要产业、市场方面的合作,找我帮助他。(高潮邮件地址为gao6279@yahoo.com

如果第三代搜索引擎完全商品化,所有的搜索就变成了电脑与人无障碍的交流和对话,科幻小说改编成的电影里表现过的一切将成为现实,整个社会所有一切都会改变。可以说高潮在研究把电脑变成人脑的过程中产生了副业——第三代搜索引撑。


结束语
做了21年记者,我第一次写搜索引擎,我深知有些技术问题没写明白,可我知道有好多读者看得比我明白。

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑