初乐营销SEO专员
1 分布式Spider和“降权蜘蛛”
由于Spider所要抓取的网页太多,如果只有单一的一个Spider进行抓取作业,那么将需要非常巨大的计算能力,同时也会消耗更多的抓取时间。这里就引入了分布式计算的概念,把庞大的抓取作业任务分割成很多较小的部分,使用大量合理计算能力的服务器来承载这个任务,以完成对全互联网网页的快速抓取。
现在大型搜索引擎都会使用分布式计算,同样Spider也会使用分布式计算,可以称这种Spider为分布式Spider,它遵循了分布式计算的主要规则,根据这些规则也可以解释现在站长和SEO人员关心的“降权蜘蛛”问题。
分布式计算有很多种计算方式,这里简单介绍Spider应有的分布式抓取策略。涉及分布式计算,也就涉及任务分发机制。整个分布式Spider系统需要保证所有Spider之间不会有重复抓取的情况发生,也就是要为各个Spider分配好抓取范围。当一个Spider发现一个新的URL时,会判断该URL是否在自己的抓取范围之内,如果在自己的抓取范围之内,就会把该URL放到自己待抓取URL队列中;如果不在自己的抓取范围之内,就会把该URL提交给上级服务器,由上级服务器分发给相应的Spider,并加入到该Spider的待抓取URL列表中。
要确保所有Spider的作业不重复,就要求每个Spider都有自己的抓取范围,也就是说每个Spider都会只抓取指定类型的网页。这里就要看搜索引擎是如何对网页进行分类的了,常规网页的分类方法有三种,
第一种是按照优秀站点、普通站点、垃圾站点、降权站点和屏蔽(被K)站点等站点质量等级分类;
第二种是按照网站首页、网站目录页、网站内容页、网站专题页、视频、图片、新闻、行业资料、其他类型的网络文件(PDF, Word, Excel等)等网页类型分类;
第三种是按照站点或网页内容所在行业分类。在真正的Spider系统设计中,为了减少搜索引擎和被抓取站点服务器之间的握手次数(影响抓取效率的重要因素),站点级别相关的分类应该是被优先使用的。Spider会严格按照自己的作业任务进行作业,由以上分类可以看出,对于大部分中小网站—般都会有一个固定的Spider进行抓取,所以很多站长和SEO人员在分析网站日志时所发现的百度Spider经常都是同一IP段的,但是不同网站之间发现的Spider的IP段并不同。理论上,如果参与研究的站点比较多,类型比较丰富,就可以比较容易地分辨出百度Spider的任务分发模式,这样通过分析日志中百度来访Spider的IP就可以判断出自己的站点在百度搜索眼中是什么样的。
针对第一种分类方式,就可能出现某一IP段的Spider只抓取权重高的网站,某一IP段的Spider只抓取已被搜索引擎降权或者屏蔽的网站。如果真的是采用这种任务分发方式,那么网络上所传的“降权蜘蛛”就可能存在。不过并不是因为这个Spider的到来使得网站降权或者屏蔽,而是因为该网站已经被百度降权或者屏蔽,百度服务器才会把对该站点的抓取任务分发给这个Spider。如果百度使用这种分布式的Spider,那么网络上对百度Spider各IP段特性的总结也是比较有意义的,不过不可全信,因为百度不可能只使用一种任务分发模式。这也可以成为站长和SEO人员的研究方向,即使可能最终一无所获。因为搜索引擎对网站和网页的分类有太多纬度了,新抓取和再次抓取所使用的纬度就可能不同,很可能各个纬度都是综合使用的。
如图2—6所示为某网友对百度Spider所使用的IP的分析,有兴趣的朋友可以百度搜索一下“百度蜘蛛IP段详解”,有不少类似的总结,看看就好,不可以绝对当真。
图2—6 网络对百度Spider的分析
2 Spider和普通用户的区别
所有的全文搜索引擎都表示自己的Spider对网站的抓取行为和普通用户的访问行为没有太大区别。站在普通用户的角度这句话的确没有问题,但是站在站长和SEO的角度这句话就不太对了。网页上有很多东西普通用户看不到也分辨不清,但是Spider可以;网页上也有很多东西普通用户可以看到并分辨清楚,但是Spider不可以。可以说Spider是一个既聪明又弱智的普通用户, Spider有着普通用户访间行为的大部分特性,但是也有不少差异。
Spider可以很容易地分辨出网页中是否有隐藏内容,是否被挂了黑链等,但是不能完全了解网页中图片的内容,也不能很好地读取JavaScript lframe, Ajax和Flash中的内容普通用户却是恰恰相反;
Spider没有Referer,对网站的抓取全部都是直接访问,而普通用户中除了直接访问的用户外一般都是有Referer 的;
Spider不支持Cookie,但普通用户的浏览器一般是支持的;
Spider不会主动注册登入网站,但是普通用户是可以的;原则上Spider不会抓取和分析网站robots中已经屏蔽的内容,但是普通用户是可以正常访问的;
Spider对于有多个动态参数网站的抓取,可能会陷入死循环,但是普通用户是不会的
Spider对于列表中前几页的新内容抓取可能不好,但是感兴趣的普通用户会依次浏览,
Spidr暂时还不能真正判断文章是不是原创,但是普通用户可以通过多种方式来确员文章是原创还是采集转载等。
Spider毕竟是人为技术驱动的程序,与普通用户还是有着非常大的区别的,因此给了站长和SEO人员很大的操作空间。站长和SEO人员在充分了解到Spider和普通用户的区别后,可以更方便地优化网站,使得网站内容被充分抓取,网站整体在搜索引擎中有个良好的表现;
同时也可以利用两者的区别,使得在不影响搜索引擎抓取和排名的情况下,给普通用户更友好的用户体验,比如,判断用户Referer给用户推荐内容等;当然,不排除有些站长和SEO人员会利用这些区别,采用很多极端的技术作弊手法,在普通用户感觉不到的地方,误导Spider对网站内容的判断,而恶意抢夺很多本不应该得到的搜索流量,这是不可取的。无论如何,都有必要深入了解两者的差异。
上一篇: SEO Spider并不会“爬”?
下一篇: 不懂技术、不会建网站可以学好SEO吗?
相关文章
- 网站如何设置首选域名?——提升SEO优化与用户体验的关键步骤 11-11
- 什么是面包屑导航? 11-11
- SEO网站推广的有效策略 11-11
- 百度SEO排名优化详解 11-11
- 搜索网站排名优化方法详解 09-24
- 百度网站优化如何提高排名?全面指南 09-24
- 谷歌外链怎么做?有效提升网站排名的策略 09-24
- 百度关键词优化怎么做?详细指南 08-13
- 网站关键词排名优化价格指南 08-13
- 百度关键词优化可靠吗?多久上首页? 08-13