PageRank将过时 搜索引擎遇范式转移

互联网 | 编辑: 徐晓赟 2006-09-12 00:00:00转载 一键看全文

第1页
曾被喻为创新机器的Google,连同盛极一时的古格尔教(Google宗教),正在全球范围内经历一个不可逆转的去魅过程。Google还在创新吗?面对诸多创意迭出的第三代搜索引擎的出现,PageRank 算法——Google所赖以成名的利器,似乎并没有给我们提供一个比其他搜索引擎更相关或者呈现方式更好的搜索结果。

比如说,在Google搜索框输入关键字查询,搜索结果往往会是数目多到目不暇接的一个个网页,除了提供的网页数日甚一日的多之外,你很难发现所搜索的结果和一年前有何分别。并且,呈现在你面前的这些网页几乎是没有经过任何处理的,比如自动分类、聚类、关联、个性化呈现等等。此外,当 PageRank算法用于决定由大量社区内容、个人主页、blog组成的网页的相关性时,也越来越显得捉襟见肘,因为这些微内容的相关性排序很难套用 PageRank算法。

第二代搜索的软肋

作为Google排名运算法则(排名公式)的核心,PageRank算法假定:某个网页被链接得越多,则该网页的等级和重要性就越大,从而在相关性排序中也就越靠前。PageRank的等级以PR值计算,PR值越高说明该网页越重要。虽然Google的排名算法实际上要远为复杂,比如还揉合了 Title标识、Keywords标识等上百个参数和变量,但囿于关键词搜索本身的局限,Google并没有在搜索结果的相关性等指标上与其竞争对手拉开距离,如果不是有所不如的话。

事实上,第二代搜索引擎所具有的局限性,Google几乎无一幸免。

大体而言,第二代搜索的局限见于如下四个方面:

其一,提供的提问函数相当有限。例如,雅虎只提供与、或运算,并且一旦选用了一个逻辑运算符,即必须应用于所有的关键词;再如,百度搜索仅支持与、或、非布尔表达式,而不支持异或,也不支持关键词之间的位置检索或者勾选搜索结果;

其二,仅支持单个关键词或者一组关键词及逻辑运算符组成提问,而并不支持自然语言搜索或语义搜索。以百度为例,百度搜索支持字串搜索,当用户输入一段话进行查询时,百度会将其切分成多个词,按照逻辑“与”的关系进行关键词搜索,但搜索结果充其量仅能做到差强人意。所以如此,是因为关键词搜索本身并不是基于对内容的理解,所以关键词与搜索结果之间的匹配很难做到精准,往往是搜到哪算哪。

其三,不能利用历史信息进行搜索。用户的每次搜索都是从头开始,而不能从原有的查询结果中作进一步选择;

其四,呈现方式单一、呆板。多数搜索引擎只返回一个长长的搜索结果列表,其中可能有数以万计的包含关键词的网页,但这些网页是否以及在多大程度上与用户的搜索意图相关,则不得而知。

Google的颠覆者

在看到pagerank的局限性以后,一些新兴的搜索公司开始尝试通过提供更精准、更个性化的搜索结果,从在呈现方式上数年一贯制、几无创新的Google那里抢夺市场份额。

例如Clusty,该公司通过借鉴Autonomy的模式识别技术以及自动分类等功能,可基于对概念的理解提供搜索结果的自动分类等功能。此外,像Grokker、Snap、Dogpile这样的后起之秀,也纷纷以更个性化的搜索结果呈现方式为招徕,连连攻城掠地。

最近在美国颇受用户赞誉的另一个搜索引擎swicki,也在个性化和精准搜索方面可圈可点。虽然swicki的大部分内容来自Google,但同样针是对关键词,swicki可以根据用户注册时的使用偏好、搜索习惯,提供出不同的搜索结果。通过对搜索结果的二次评判,swicki还可以逐步校正搜索结果列表。

在国内,除了类似bbmao这样的社会化搜索引擎开始提供自动分类、聚类、用户收藏等功能而崭露头角外,老牌搜索厂商雅虎中国,也在搜索算法和呈现方式上进行了诸多改进,不仅强化了对社区内容、blog等微内容的数据抓取,而且在个性化呈现、模糊搜索等方面也有较大举措。

一个例子是,此前一个月,雅虎中国、雅虎全球、阿里巴巴三方联合推出了一个具有智能模糊匹配功能的搜索引擎——雅虎Imatch。据称,该系统可以根据用户的搜索习惯和意图,智能匹配相关的搜索结果。

提示:试试键盘 “← →” 可以实现快速翻页 

总共 2 页12
一键看全文

本文导航

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑