谈PageRank-Google的表决式网页排名技术

互联网 | 编辑: 潘翔城 2006-05-10 00:00:00转载

大家可能听说过，Google 革命性的发明是它名为 “Page Rank” 的网页排名算法，这项技术彻底解决了搜索结果排序的问题。其实最先试图给互联网上的众多网站排序的并不是 Google。Yahoo! 公司最初第一个用目录分类的方式让用户通过互联网检索信息，但由于当时计算机容量和速度

大家可能听说过，Google 革命性的发明是它名为 “Page Rank” 的网页排名算法，这项技术彻底解决了搜索结果排序的问题。其实最先试图给互联网上的众多网站排序的并不是 Google。Yahoo! 公司最初第一个用目录分类的方式让用户通过互联网检索信息，但由于当时计算机容量和速度的限制，当时的 Yahoo! 和同时代的其它搜索引擎都存在一个共同的问题: 收录的网页太少，而且只能对网页中常见内容相关的实际用词进行索引。那时，用户很难找到很相关信息。我记得 1999 年以前查找一篇论文，要换好几个搜索引擎。后来 DEC 公司开发了 AltaVista 搜索引擎，只用一台 ALPHA 服务器，却收录了比以往引擎都多的网页，而且对里面的每个词进行索引。AltaVista 虽然让用户搜索到大量结果，但大部分结果却与查询不太相关，有时找想看的网页需要翻好几页。所以最初的 AltaVista 在一定程度上解决了覆盖率的问题，但不能很好地对结果进行排序。

Google 的“Page Rank” (网页排名)是怎么回事呢?其实简单说就是民主表决。打个比方，假如我们要找李开复博士，有一百个人举手说自己是李开复。那么谁是真的呢?也许有好几个真的，但即使如此谁又是大家真正想找的呢?:-) 如果大家都说在 Google 公司的那个是真的，那么他就是真的。

在互联网上，如果一个网页被很多其它网页所链接，说明它受到普遍的承认和信赖，那么它的排名就高。这就是 Page Rank 的核心思想。当然 Google 的 Page Rank 算法实际上要复杂得多。比如说，对来自不同网页的链接对待不同，本身网页排名高的链接更可靠，于是给这些链接予较大的权重。Page Rank 考虑了这个因素，可是现在问题又来了，计算搜索结果的网页排名过程中需要用到网页本身的排名，这不成了先有鸡还是先有蛋的问题了吗?

Google 的两个创始人拉里•佩奇 (Larry Page )和谢尔盖•布林 (Sergey Brin) 把这个问题变成了一个二维矩阵相乘的问题，并且用迭代的方法解决了这个问题。他们先假定所有网页的排名是相同的，并且根据这个初始值，算出各个网页的第一次迭代排名，然后再根据第一次迭代排名算出第二次的排名。他们两人从理论上证明了不论初始值如何选取，这种算法都保证了网页排名的估计值能收敛到他们的真实值。值得一提的事，这种算法是完全没有任何人工干预的。

理论问题解决了，又遇到实际问题。因为互联网上网页的数量是巨大的，上面提到的二维矩阵从理论上讲有网页数目平方之多个元素。如果我们假定有十亿个网页，那么这个矩阵就有一百亿亿个元素。这样大的矩阵相乘，计算量是非常大的。拉里和谢尔盖两人利用稀疏矩阵计算的技巧，大大的简化了计算量，并实现了这个网页排名算法。今天 Google 的工程师把这个算法移植到并行的计算机中，进一步缩短了计算时间，使网页更新的周期比以前短了许多。

我来 Google 后，拉里 (Larry) 在和我们几个新员工座谈时，讲起他当年和谢尔盖(Sergey) 是怎么想到网页排名算法的。他说:"当时我们觉得整个互联网就像一张大的图 (Graph)，每个网站就像一个节点，而每个网页的链接就像一个弧。我想，互联网可以用一个图或者矩阵描述，我也许可以用这个发现做个博士论文。" 他和谢尔盖就这样发明了 Page Rank 的算法。

网页排名的高明之处在于它把整个互联网当作了一个整体对待。它无意识中符合了系统论的观点。相比之下，以前的信息检索大多把每一个网页当作独立的个体对待，很多人当初只注意了网页内容和查询语句的相关性，忽略了网页之间的关系。

今天，Google 搜索引擎比最初复杂、完善了许多。但是网页排名在 Google 所有算法中依然是至关重要的。在学术界, 这个算法被公认为是文献检索中最大的贡献之一，并且被很多大学引入了信息检索课程 (Information Retrieval) 的教程。

每日精选

全新米家无线洗地机5C预约中三重防缠，售价999元

小米推出了全新洗地机——米家无线洗地机5C，采用三重防缠绕技术，拥有45分钟超长续航，支持60℃热流净味透烘。

标签：小米| 米家| 洗地机| 2026-07-26
游戏手机必备骁龙8E6 Pro独占1440P超分超帧

骁龙8E6 Pro支持LPDDR6内存，独占1440P超分、AI插帧两大游戏专属功能，游戏综合体验大幅升级。

标签：骁龙| 骁龙8E6Pro| 1440P超分| 2026-07-27
2026上半年智能投影销量大跌市场连续九季度下滑

上半年，中国智能投影市场（不含激光电视）全渠道的销量为205.6万台，同比下降26.0%；销额为33.4亿元，同比下滑27.0%。自2024年第二季度起，市场已连续九个季度发生了规模的同比下滑。

标签：智能投影| 投影| 极米| 坚果| Vidda| 2026-07-27
苹果积极游说使用中国存储芯片美光强烈反对

苹果正游说美国政府，希望获准在海外销售的苹果设备中搭载中国供应链的存储产品，以此缓解全球存储供货紧张局面，还能从源头控制硬件成本，进而降低终端产品售价。

标签：苹果| 长鑫存储| 长江存储| 美光| 2026-07-27
首款机器人手机荣耀Robot Phone定档8月12日

荣耀手机正式官宣，荣耀Robot Phone将于8月12日发布，这款新品由荣耀与专业影视器材品牌阿莱（ARRI）联合研发。

标签：荣耀| 荣耀RobotPhone| 2026-07-27
PC鲜辣报：AMD公布新一代EPYC 技嘉推出40周年纪念板卡

上周，AMD发布新一代AI计算平台；Intel公布第二季度财报；NVIDIA公开Rubin GPU架构多项技术细节；技嘉推出40周年AORUS INFINITY系列板卡。

标签： PC鲜辣报| AMD| EPYC| 技嘉| 2026-07-27
OPPO启动小布Next计划端侧主动智能新突破

OPPO宣布启动「小布Next计划」，开放行业首个端侧Multi-Agent协同系统内测。OPPO Find X8、X9系列用户及一加13、13T、15、15T用户可参与内测。

标签： OPPO| 小布Next| 端侧主动智能| 2026-07-27
荣耀手环11系列全渠道开启预约专业运动续航全面升级

荣耀官方宣布荣耀手环11系列今天开启全渠道预约，新品在外观设计上推出多款清新多彩配色，新增专业羽毛球运动模式。

标签：荣耀| 荣耀手环| 手环| 2026-07-27
韬定律芯片配风扇华为Mate90系列性能暴增

华为年度旗舰Mate 90系列预计于今年9月正式登场。新机补足性能短板，搭载全新麒麟9050 Pro芯片，该芯片依托华为韬定律打造，搭配系列延续的风驰版主动式散热方案，整机性能跨越式升级。

标签：华为| Mate90| 性能| 2026-07-28
SK海力士量产LPDDR6 小米或将成为首批客户

三星和SK海力士计划于今年下半年正式量产LPDDR6内存，据韩国媒体报道成，小米有望成为该规格内存的首批客户。而这也预示着，小米18系列会提供一款满血版规格的机型。

标签： SK海力士| LPDDR6| 小米| 2026-07-28