搜索无果原因(下)
原因四:技术原因搜索引擎无法抓取
大部分搜索引擎是通过一种被称为Spider的搜索机器人在网络上抓取内容,整理后放入搜索引擎库的。当遇到由大量flash、script、asp等网络语言编写的网页时(BBS、数据库多数采用这种编写方式),搜索机器人就会停止抓取网页,因为这是为了避免一种叫“搜索机器人陷阱”(spider traps)的脚本错误(这种错误会让搜索机器人进行无限循环的抓取,无法退出而浪费大量时间)。如果碰巧你要搜索的网页是由上述网络语言编写,则会无功而返。
对策:一般情况下,这些网站都会提供站内搜索服务,可以尝试直接登录再进行搜索。
原因五:因为其他原因不去抓取
如果你所要搜索的是一些有商业价值的内容,即使搜索引擎可以抓取,但基于商业利益原因则可能放弃抓取。另外一种情况就是需要用户名和密码登录才能访问的站点,搜索机器人无法自动完成“输入内容”,所以它也没办法访问(当然也有出于版权和隐私方面的因素)。
对策:碰到搜索无结果时,你先看看是否属于上述情况,然后作出决择。
原因六:使用了停用词
可能不少朋友在搜索时都没有注意到一个问题,这就是停用词的使用。所谓的停用词是指由于该关键字太常见、使用太频繁,以至于无法搜索出有意义的结果,当你把停用词输入搜索框时,搜索引擎自动会忽略这些词。各个搜索引擎对停用词都有各自不同的定义,但一般常见多是语言中的副词、连词、介词,例如“是”、“的”等等。
对策:如果发现出现的搜索结果中并没有完全包含所输入的全部关键字,则要看看是否使用了停用词。万一必须使用停用词,请用英文输入双引号(千万不要输入中文的“”符号)或“+”号把停用词与其他关键字连接起来再搜索。
原因七:搜索引擎库里的资料还没有更新
每个搜索引擎都会定期通过搜索机器人来抓取网页,这个时间不但各搜索引擎并不相同,即使是同一搜索引擎的不同镜像站点更新时间也有一定的差异,有些周期短,有些周期长。如果碰巧所搜索的内容,搜索引擎还没有来得及更新,则会出现一个时间上的断档而造成无法找到结果。
对策:尽量选用更新时间快的镜像站点来进行搜索,至于如何知道镜像站点的更新快慢,除了自己在使用中积累经验外,还可以从一些专业搜索知识中得知。如果要搜索的内容是属于时效性比较强的,则考虑使用更新时间较快的专业搜索引擎,例如搜索时事新闻可采用新浪、BBC的新闻搜索。
网友评论