搜索引擎收录网站的原理

探寻蜘蛛和探寻机器人
 
搜索引擎要知道网上的新生事物,就得派人出去搜集。我们提到,在Yahoo创办初期,许多编辑天天泡在网上,访问新鲜网站,然后将搜集来的信息整理成序。当时的网站数量少,做起来比较容易。而现在新的网站出现数量、老网的更新都是爆炸式的,靠人工是不可能完成这个任务的。所以,搜索引擎的发明者就设计了计算机程序,派他们执行这个任务。
    探测器有多种叫法,也叫:crawler(爬行器)、spider(蜘蛛)、robot(机器人)。这些形象的叫法是描绘搜索引擎派出的蜘蛛机器人爬行在互联网上探测新的信息。Google把它的探测器叫(Googlebot),百度就叫(Baiduspider)、MSN 叫 (MSNbot) ,而Yahoo则称为(Slurp) 。这个探测器实际上是人们编制的计算机程序,由它不分昼夜地进入访问各个网站,取回网站内容、标签、图片等,然后依照搜索引擎的算法给它们制定成索引。所以,这可不是“爬行”而是以光速来访问的。
      
一个搜索引擎会同时派遣出许多探测器。这些“机器人”或者从站主直接呈递网站URL去访问,或者由一个网络用户所安装搜索引擎工具栏(比如:Google工具栏)得知用户去的网站,或者是从一个网站指向另一个网站的链接过去。探测器不一定是从网站的首页进入访问,所以如果你要探测器访问你的其他网页,那么这个进入页就需要和其他网页相连。达到这个目的的最容易办法叉是在每一页都加入指向首页的链接。
但是,探测器对许多网站是不能完整取回信息的,这个大多是由于网站的设计没有按照搜索引擎探测器来进行优化。比如:“Google目前能吸收100KB的文件,Yhoo会多一些。这个可以通过实验来检验。”将一个搜索关键词放在一个很长的网页(约160KB)最后部分,然后看Google的缓存(cache)显现网页的大小是多少。如果不出意料,Google的cache 说这个网页只有101BK,很显然,一部分内容没有被Google抓走。
这个现象告诉我们不要将网页设计得很长,很大。将大的网页拆成若干小的网页是具有多个好处。
  • 使得网页容易被探测器抓取。
  • 更容易建立合理的网站内部链接关系。
  • 每个网页可能更加集中在重要的关键词语。
  • 节省服器的带宽。
  • 方便浏览者阅读。

如何将网站设计得更加方便面搜索引擎来访,是搜索引擎优化的重要应用技术。

广州网站设计