初乐营销SEO专员
Spider抓取一个网页后会优先把网页中的URL提取出来,同时记录和计算URL的形式、位置、锚文本、当前页所赋予的权值等信息,然后把这些URL合并到抓取队列中,并根据每个URL所附有的总权值等信息进行抓取队列内排序。Spider就是根据这个不断变化顺序的URL队列来抓取网页内容的,并不是从一个页面沿着链接爬到另一个页面的抓取过程。因此严格来说Spider是不会“爬”的,站长在网站日志中也可以看到Spider对网站的访问并没有refer,都是直接访问。
以往一般会把Spider抓取网页的过程形象地描述为搜索引擎放出Spider,然后这个Spider就沿着链接不断地抓取网页,这只是一种形象的比喻而已。比如以前描述类似万年历的“蜘蛛陷阱”时,会有这样的描述“蜘蛛进入到蜘蛛陷阱后会一层一层地无限抓取下去”“蜘蛛进去就出不来了"“把蜘蛛永远留在站内了”,这类描述给大家传达的意思都是Spider沿着链接从一个网页到另一个网页的爬行过程。
其实按照实际的Spider设计, “蝴蛛陷阱”并不是把Spider留在了站内“出不去了”,而是如果不加控制的话, Spider会在“蜘蛛陷阱”的网页集合中收集到无数无意义的URIL并放入抓取队列中,这些URL对应的网页并没有实际有意义的内容,从而会造成Spider抓取资源的浪费。所谓的“把蜘蛛强制留在站内”对应实际的Spider抓取机制,应该是如果Spider不加限制地收集URL,就需要无限制地抓取“蜘蛛陷阱”内的URL,然而“蜘蛛陷阱”内的URL可能是无限的,并不是“一个蜘蛛掉陷阱里出不来了”。
也就是说, Spider对网页的抓取是单次访问抓取,每访问一个页面都会把页面上的信息抓取回来,而不是把一个“小蜘蛛”派到网站上,然后沿着网站的链接爬行抓取大量的页面之后再返回给服务器。百度搜索“留住蜘蛛”会有大量相关文章,内容基本都是设法增加Spider抓取次数,比喻很形象,但也有些误导新同学。
2.1.4 Spider再次抓取更新策略
Spider把网贡抓取到本地,该网页被分析索引并参与了排名,并不意味着Spider针对该网页的工作已经结束了。现在互联网网页内容多是动态变化的,甚至有时网页会被管理者删除。搜索引擎所抓取到的本地页面,可以看做是对已经抓取并索引过的网页做了一个镜像,也就是说理论上搜索引擎应该保证,本地“镜像”页面和对应互联网上的网页内容实时一致。
但是由于搜索引擎的Spider资源有限,现阶段做不到也没有必要做到实时监测全部已索引网页的所有变化。搜索引擎只需要为Spider设置一个再次抓取和更新页面的策略,以保证当部分页面呈现到用户面前时,搜索引擎的本地索引和该网页当时的内容并没有太大的差异就可以了,这部分页面应该包含大部分网民所需要检索的内容,并且也可以满足绝大多数搜索用户的搜索请求。
如上所述,在有限资源的情况下,搜索引擎首先要保证部分网页索引的更新,这部分网页拥有大部分用户所需要的内容;也要保证所有索引页面都有一个更新机制,在该网页需要相应的新的内容素引时, Spider要进行再次抓取并更新该网页索引。站在Spider的角度,一般会相据以下四个方面来确定对已索引网页的再次抓取频率:用户体验、历史更新频率、网页类型和网页权重。
1. 用户体验
整个互联网的网页数量是巨大的,已被百度抓取并索引的中文网页应该也是千亿级别的了,但是用户所需要的信息只有一小部分。当用户在搜索引擎提交查询后,不论返回结果有多少,大部分用户都会在前三页找到自己所需要的信息,很少有用户会浏览第四页或者更靠后的搜索结果。本着优先更新大部分用户所需要内容的原则,所有用户提交查询结果的前几页,都是值得保证索引及时更新的。所以一般搜索引擎会搜集所有用户的搜索请求,然后统计所有搜索结果中用户可能看到的网页,继而进行优先再次抓取和更新。理论上,这些网页被搜索到的次数越多,再次被抓取的频率就会越高。
2.历史更新频率
搜索引擎会尝试发现某一个网页中内容的更新频率,因为Spider的再次抓取就是为了发现已经被索引网页是否有变化,如果某个网页持续没有变化,可能搜索引擎就会降低对其抓取的频率,甚至不再对其进行再次抓取。这个策略的实施是建立在搜索引擎已经发现网页的更新频率的基础上的,所以理论上当Spider发现一个新URL抓取并索引后,会很快进行二次抓取。如果没有发现内容变动,就会降低抓取频率,这样慢慢地发现网页的更新频率,以调整到最佳的抓取频率。同时Spider注重的变化应该是网页的主体内容部分,一般会忽略主体内容周围的广告模块、导航模块及推荐链接模块的更新变动。
3.网页类型
不同的网页类型有不同的更新频率。在同一个站点内网站首页、目录页、专题页和文章页的更新频率肯定是不同的。所以对于同一站点内的网页,Spider对不同类型的网页抓取频率是不同的。首页和目录页是 Spider 经常光顾的页面;根据专题页面的时效性或者其他特征,Spider可能会在某一时间段内进行频繁抓取,时效性过期后就会降低对其的抓取频率;对于文章页,Spider很有可能第一次来过之后就不再来了。虽然整个互联网中网页很多,但是网页类型并不多,每个类型的网页都会有自己的布局和更新规律,搜索引擎有足够的能力发现网页的类型并设置合理的再次抓取频率。网页类型归类和网页历史更新频率是被综合使用最多的,一般在同一站点内同类网页会有相同的更新频率,这也会方便Spider对网页更新频率的判断。
4.网页权重
除了以上再次抓取策略外,网页权重也是决定抓取频率的重要因素。用户体验策略在一定程度上也反映了网页权重的影响。在网页类型相同、历史更新频率也差不多的情况下,肯定是权重越高的页面被抓取的频率越高。比如百度首页、好123首页、chinaz站长工具首页和普通企业站首页都可以简单归为网站首页,并且前三个“首页”长期都不会有什么更新,普通企业站首页可能偶尔还会有更新,但是前三个“首页”的百度快照一般都是最新的,而普通企业站的首页快照可能是一周前甚至一个月前的。这就反映出了网页权重在抓取频率中的作用。
在搜索引擎 Spider的实际作业中,不会单独使用某一种再次抓取策略,而是会综合参考网页的用户体验、更新频率、网页类型和网页权重。并且对于不同类型的页面,着重参考的更新内容主体也是不同的。比如,列表页只有一篇新的文章进入可能就算更新了;文章页主体内容没有变,主体内容周围的所有推荐链接、广告、内容都变了,可能也不会算是有更新。
在SEO工作中为了提高某一网站的抓取频率,一般会重点为该页面的导入链接提高权重,努力加大该页面的更新频率。其实在用户体验和网页类型方面也是有工作可做的,用标题和描述吸引点击不仅可以提升排名,也能够间接增加页面被 Spider 抓取的频率;同时对于不同定位的关键词可以使用不同的网页类型(列表页、专题页、内容页等),这在设计页面内容和网站架构时就应该仔细地考虑,并且网页类型这部分有很多工作值得做。比如,有不少网站把整站都做成了列表页,全站没有普通意义上的内容页,内容页主体内容下方或周围也有大量和主题相关的文本内容,一般是类列表形式。不过这种手法有效时间不长,或者损害用户体验后会特性。
降低被抓取的频率。不论怎样,优秀的网站架构设计应该合理地利用 Spider 抓取策略的各种以上讨论的是Spider正常的抓取策略。有抓取并不代表一定有更新,当页面内容的变化值得搜索引擎更新索引时才会更新,比如,上面提到的文章页主体内容不变但是推荐链接全变了,一版搜索引擎也不会浪费资源做无意义的更新。当Spider发现已经索引的页面突然被删除,也就是服务器突然返回404状态码时,也会在短时间内增加对该页面的抓取频率。有的SEO人员就利用这一点增加Spider对自己网站的抓取,并做一些其他的“手脚”,不过这是一个走钢丝的小聪明行为,不见得长期有效,不值得冒险使用。
另外,有不少门户网站习惯对即时新闻先发布一个标题,然后再让编辑补充内容,甚至还会修改标题。但是这种网页一般都是文章页,不论从用户体验、更新频率、网页类型和网站权重哪方面来看都不会得到比较高的抓取频率,也就造成这些网站不断在报怨百度不更新如此操作的新闻网页。百度搜索官方已经表示希望以后通过百度站长平台来解决一下这个问题,但是作为SEO人员不能只是指望搜索引擎官方做出什么样的动作。仔细研究Spider的抓取和更新策略,虽然或许不能将问题解决得那么完美,但是一般都会找到比较适合自己的方法。当然最终还是期望百度官方尽快推出相应的机制或工具来解决这个问题。
百度“阿拉T"解决暗网抓取
前面已经介绍过暗网,这些网页和“非暗网”网页是脱钩的,也就是说Spider通过普通的抓取机制永远都不可能抓取到这些页面。用户浏览这些暗网页面一般都是通过提交条件查询或者文本框主动搜索,当然还有很多其他情况产生的暗网网页,但是普通搜索引擎的Spider考虑到很多因素是不会直接这样来操作的。由于暗网页面的数量巨大,价值也远高于非暗网页面,所以大型搜索引擎都把对暗网的抓取当成了重要研究课题,各自也有着各自的抓取策略。这里来介绍一下百度的“阿拉丁计划”.
百度的“阿拉丁计划”诞生的初衷就是挖掘出更多存在于暗网之中有价值的信息,让更多人从中受益。通过加入阿拉丁平台,可以指定关键词,把自己网站的内容更精准地呈献给目标用户;可以指定展现样式,使用更丰富、更适合资源本身的样式,而不再局限于文字;指定更新频率,也就是直接告诉百度自己资源的更新频率,以保证百度搜索结果数据和实际数据的实时同步。
由于是站长自己提交资源,所以百度可以很容易地解决一部分暗网抓取问题。这个平台对于有着独特资源的网站来说绝对是个福利,不仅使得更多使用百度搜索的网民受益,自己的网站也获得了更多的流量,重要的是非商业内容网站加入阿拉丁平台完全是免费的。不过对于大部分无独特资源的中小站长来说,这个平台会减少自己网站的展示机会。在一定角度上来说也是在鼓励站长发掘自己独有的内容和资源。当然如果网站资源比较不错,也可以通过付费的方式加入到百度阿拉丁平台,不过付费阿拉丁对资源应该有特别的要求。现在阿拉丁中的商业内容基本上都是付费的,比如房产、汽车等。
即使不能进入阿拉丁,站长自己也可以辅助百度抓取自己站内处于“暗网”中的页面。比如商城和房产类网站,把希望百度收录的交叉查询的链接全部呈现出来(如图2—5所示),或者把自己希望百度收录的页面制作成HTML和XML地图以供百度Spider抓取和收录,并且百度站长平台开通了sitemap提交功能,有比较优质资源的站长可以通过此工具提交自己网站“暗网”中的页面。百度在对暗网抓取方面比较依靠站长自己的主动配合,而没有暴力查询网站的数据库。
上一篇: Spider的抓取策略
下一篇: 分布式Spider和“降权蜘蛛”
相关文章
- 网站如何设置首选域名?——提升SEO优化与用户体验的关键步骤 11-11
- 什么是面包屑导航? 11-11
- SEO网站推广的有效策略 11-11
- 百度SEO排名优化详解 11-11
- 搜索网站排名优化方法详解 09-24
- 百度网站优化如何提高排名?全面指南 09-24
- 谷歌外链怎么做?有效提升网站排名的策略 09-24
- 百度关键词优化怎么做?详细指南 08-13
- 网站关键词排名优化价格指南 08-13
- 百度关键词优化可靠吗?多久上首页? 08-13