初乐营销SEO专员
Spider也就是大家常说的爬虫、蜘蛛或机器人,是处于整个搜索引擎最上游的一个模块,只有Spider抓回的页面或URL才会被索引和参与排名。需要注意的是,只要是Spider抓到的URL,都可能会参与排名,但参与排名的网页并不一定就被 Spider 抓取到了内容,比如有些网站屏蔽搜索引擎 Spider后,虽然Spider不能抓取网页内容,但是也会有一些域名级别的URL在搜索引擎中参与了排名(例如天猫上的很多独立域名的店铺)。根据搜索引擎的类型不同,Spider也会有不同的分类。大型搜索引擎的Spider一般都会有以下所需要解决的问题,也是和SEO密切相关的问题。
首先,Spider想要抓取网页,要发现网页抓取入口,没有抓取入口也就没有办法继续工作,所以首先要给Spider一些网页入口,然后Spider顺着这些入口进行爬行抓取,这里就涉及抓取策略的问题。抓取策略的选择会直接影响 Spider 所需要的资源、Spider 所抓取网页占全网网页的比例,以及Spider的工作效率。那么Spider一般会采用什么样的策略抓取网页呢?
其次,网页内容也是有时效性的,所以Spider对不同网页的抓取频率也要有一定的策略性,否则可能会使得索引库中的内容都很陈旧,或者该更新的没更新,不该更新的却浪费资源更新了,甚至还会出现网页已经被删除了,但是该页面还存在于搜索结果中的情况。那么 Spider般会使用什么样的再次抓取和更新策略呢?
再次,互联网中的网页总有一部分是没有外部链接导入的,也就是常说的“暗网”,并且这部分网页也是需要呈现给广大网民浏览的,此时 Spider 就要想方设法针对处于暗网中的网页进行抓取。当下百度是如何来解决这个暗网问题的呢?
最后,大型搜索引擎的Spider不可能只有一个,为了节省资源,要保证多个Spider 同时作业且抓取页面不重复;又由于各地区数据中心分配问题,搜索引擎一般不会把Spider 服务器放置在一个地区,会多地区同时作业,这两方面就涉及分布式抓取的策略问题。那么一般搜索引擎的Spider会采用什么样的分布抓取策略呢?
接下来逐一介绍一般的搜索引擎Spider在面临以上问题时采用的是什么策略,并详细地了解一下整个搜索引擎最上游的Spider到底是如何工作的,以及一个优秀的Spider程序应该有明些特点。
Spider有哪些分类?
按照现在网络上所有Spider的作用及表现出来的特征,可以将其分为三类:批量型Spider增量型Spider和垂直型Spider
1. 批量型Spider
般具有明显的抓取范围和目标,设置抓取时间的限制、抓取数据量的限制,或抓取固定范围内页面的限制等。当Spider的作业达到预先设置的目标就会停止。普通站长和SEO人员使用的采集工具或程序,所派出的Spider大都属于批量型Spider,一般只抓取固定网站的固定内容,或者设置对某一资源的固定目标数据量,当抓取的数据或者时间达到设置限制后就会自动停止,这种Spider就是很典型的批量型Spider.
2. 增量型Spider
增量型Spider也可以称之为通用爬虫。一般可以称为搜索引擎的网站或程序,使用的都是增量型Spider,但是站内搜索引擎除外,自有站内搜索引擎一般是不需要Spider的。增量型Spider和批量型Spider不同,没有固定目标、范围和时间限制,一般会无休止地抓取下去,直到把全网的数据抓完为止。增量型Spider不仅仅抓取尽可能全的页面,还要对已经抓取到的页面进行相应的再次抓取和更新。因为整个互联网是在不断变化的,单个网页上的内容可能会随着时间的变化不断更新,甚至在一定时间之后该页面会被删除,优秀的增量型Spider需要及时发现i种变化,并反映给搜索引擎后续的处理系统,对该网页进行重新处理。当下百度、Google网搜索等全文搜索引擎的Spider,一般都是增量型Spider.
3. 垂直型Spider
垂直型Spider也可以称之为聚焦爬虫,只对特定主题、特定内容或特定行业的网页进行抓取,一般都会聚焦在某一个限制范围内进行增量型的抓取。此类型的Spider不像增量型Spider一样追求大而广的覆盖面,而是在增量型Spider上增加一个抓取网页的限制,根据需求抓取含有目标内容的网页,不符合要求的网页会直接被放弃抓取。对于网页级别纯文本内容方面的识别,现在的搜索引擎Spider还不能百分之百地进行准确分类,并且垂直型Spider也不能像增量型 Spider那样进行全互联网爬取,因为那样太浪费资源。
所以现在的垂直搜索引擎如果有附属的增量型Spider,那么就会利用增量型Spider以站点为单位进行内容分类,然后再派出垂直型Spider抓取符合自己内容要求的站点;没有增量型Spider作为基础的垂直搜索引擎,一般会采用人工添加抓取站点的方式来引导垂直型Spidr作业。当然在同一个站点内也会存在不同的内容,此时垂直型Spider也需要进行内容判断,但是工作量相对来说已经缩减优化了很多。现在优酷下的搜库、百度和Google等大型搜索引擎下的垂直搜索使用的都是垂直型Spider.
虽然现在使用比较广泛的垂直型Spider对网页的识别度已经很高,但是总会有些不足,这也使得垂直类搜索引擎上的SEO有了很大空间。
本文主要讨论网页搜索的SEO,所以讨论的内容以增量型Spider为主,也会简单涉及垂直型Spider方面的内容,其实垂直型Spider完全可以看作是做了抓取限制的增量型Spider.
上一篇: 搜索引擎的原理解析
下一篇: Spider的抓取策略
相关文章
- 网站如何设置首选域名?——提升SEO优化与用户体验的关键步骤 11-11
- 什么是面包屑导航? 11-11
- SEO网站推广的有效策略 11-11
- 百度SEO排名优化详解 11-11
- 搜索网站排名优化方法详解 09-24
- 百度网站优化如何提高排名?全面指南 09-24
- 谷歌外链怎么做?有效提升网站排名的策略 09-24
- 百度关键词优化怎么做?详细指南 08-13
- 网站关键词排名优化价格指南 08-13
- 百度关键词优化可靠吗?多久上首页? 08-13