百度spider 主要抓取策略类型

spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider即是通过这种系统的通力合作完成对互联网页面的抓取工作。
但其实Baiduspider在抓取过程中面对的是一个超级复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。以下做简单介绍:

1、抓取友好性

互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题,耗费被抓网站的带宽造成访问压力,如果程度过大将直接影响被抓网站的正常用户访问行为。因此,在抓取过程中就要进行一定的抓取压力控制,达到既不影响网站的正常用户访问又能尽量多的抓取到有价值资源的目的。
通常情况下,最基本的是基于ip的压力控制。这是因为如果基于域名,可能存在一个域名对多个ip(很多大网站)或多个域名对应同一个ip(小网站共享ip)的问题。实际中,往往根据ip及域名的多种条件进行压力调配控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时百度spider将优先按照站长的要求进行抓取压力控制。
对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如夜深人静月黑风高时候抓取的可能就会快一些,也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断的调整。对于不同站点,也需要不同的抓取速度。

2、常用抓取返回码示意

简单介绍几种百度支持的返回码:
1)最常见的404代表“NOT FOUND”,认为网页已经失效,通常将在库中删除,同时短期内如果spider再次发现这条url也不会抓取;
2)503代表“Service Unavailable”,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503状态码,百度spider不会把这条url直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回503,那么这条url仍会被认为是失效链接,从库中删除。
3)403代表“Forbidden”,认为网页目前禁止访问。如果是新url,spider暂时不抓取,短期内同样会反复访问几次;如果是已收录url,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条url也会被认为是失效链接,从库中删除。
4)301代表是“Moved Permanently”,认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时,我们推荐使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。

抓取策略类型

3、多种url重定向的识别

互联网中一部分网页因为各种各样的原因存在url重定向状态,为了对这部分资源正常抓取,就要求spider对url重定向进行识别判断,同时防止作弊行为。重定向可分为三类:http 30x重定向、meta refresh重定向和js重定向。另外,百度也支持Canonical标签,在效果上可以认为也是一种间接的重定向。

4、抓取优先级调配

由于互联网资源规模的巨大以及迅速的变化,对于搜索引擎来说全部抓取到并合理的更新保持一致性几乎是不可能的事情,因此这就要求抓取系统设计一套合理的抓取优先级调配策略。主要包括:深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、社会化分享指导策略等等。每个策略各有优劣,在实际情况中往往是多种策略结合使用以达到最优的抓取效果。

5、重复url的过滤

spider在抓取过程中需要判断一个页面是否已经抓取过了,如果还没有抓取再进行抓取网页的行为并放在已抓取网址集合中。判断是否已经抓取其中涉及到最核心的是快速查找并对比,同时涉及到url归一化识别,例如一个url中包含大量无效参数而实际是同一个页面,这将视为同一个url来对待。

6、暗网数据的获取

互联网中存在着大量的搜索引擎暂时无法抓取到的数据,被称为暗网数据。一方面,很多网站的大量数据是存在于网络数据库中,spider难以采用抓取网页的方式获得完整内容;另一方面,由于网络环境、网站本身不符合规范、孤岛等等问题,也会造成搜索引擎无法抓取。目前来说,对于暗网数据的获取主要思路仍然是通过开放平台采用数据提交的方式来解决,例如“百度站长平台”“百度开放平台”等等。

7、抓取反作弊
spider在抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统。例如分析url特征、分析页面大小及内容、分析站点规模对应抓取规模等等。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seozhishi/1057spider

相关文章

  • 百度落地页规范之广告体验

    落地页,广告,百度

    近期百度发布了搜索违规落地页的体验问题说明,主要从pc端移动适配、页面排版布局、交互功能规范,这三方面进行了说明。各个站长还是速度的自查站点是否有违规的行为,又一波考验到来了。广告投放的关键点是什么,需要注意哪些方面呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 970
    • 落地页
    • 广告
    • 百度
  • 网站排名一直掉,从这几个方面排查

    网站排名一直掉

    无论你的公司规模多大,你在搜索引擎上的一些不恰当的SEO手法,都可能会受到处罚,从而影响你的搜索排名。例如,百度、360搜索甚至会在搜索结果中完全删除你网站的页面。因此,你要避免受到惩罚,避免失去搜索流量。以下是一些简单的SEO方法,可以避免你犯错误,这些错误有可能会让你的排名全无。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2466
    • 网站排名一直掉
  • 新站被快速收录的秘诀

    新站快速收录的方法

    新站被快速收录的秘诀,如何让新站快速的收录。如果你能做到下面这些,你的网站就可能在12个小时内被收录。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1429
    • 新站快速收录的方法
  • 什么是面包屑导航

    面包屑导航

    什么是面包屑导航,使用面包屑导航的优点,面包屑导航的作用是告诉访问者他们目前在网站中的位置以及如何返回。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 908
    • 面包屑导航
  • 新网站如何快速提升排名

    如何快速提升排名,新网站SEO优化

    新网站如何SEO优化快速提升排名,需定时更新内容,保证更新内容的质量,内容不仅要做到 原创,更要注重内容的价值,把握SEO优化的核心是什么,不能为了排名而去优化网站,舍本逐末。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1577
    • 如何快速提升排名
    • 新网站SEO优化
  • 学会这招,你再也不用头疼的挖掘关键词

    关键词

    在SEO优化的过程中,关键词挖掘是一项至关重要的任务。通过精准地定位目标关键词,网站能够更有效地吸引目标流量,提升搜索引擎排名,进而实现流量的增长。关键词挖掘是seo优化中非常重要的一项工作。可以说每个seo都有自己的挖掘关键词的方法,今天潘某人SEO分享的关键词的挖掘方法可以说适合任何的站点,并且可行性及高。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 4009
    • 关键词
  • SEO优化如何运用好meta标签

    meta标签运用

    在SEO网站优化过程中应该知道网站的三大meta标签的重要性,这三种标签设置的好坏直接影响着网站后期的优化效果。下面就来和大家说说在SEO优化中如何运用meta标签。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2236
    • meta标签运用
  • 新站SEO优化全攻略:如何在搜索引擎中脱颖而出

    新站优化

    随着搜索引擎算法的不断进步,对于新站而言,实现有效的SEO优化变得前所未有的挑战。尤其对于那些零基础的新站点来说,想要在搜索结果中占据一席之地更是难上加难。然而,“好的开始是成功的一半”,正确的起步能够为新站打下坚实的基础。今天,就与潘某人SEO一起探讨下新站SEO优化的关键要素,如何让网站快速成长。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 242
    • 新站优化
  • 换ip后导致不收录原因

    不收录原因,

    换ip或者服务器后导致百度不收录原因是什么你知道吗?大多数情况是DNS缓存问题导致的域名解析还没有生效,无法获取新服务器上的内容。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1429
    • 不收录原因
  • 如何充分利用抓取频次

    如何充分利用抓取频次

    现在,我们已经想知道了,爬行很重要,是不是花费更多的时间来管理抓取频次?您应该(或不应该)做很多事情来让搜索蜘蛛更多地消耗更多的网站页面,以下是最大化抓取频次功能的操作列方法:如何充分利用抓取频次?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2524
    • 如何充分利用抓取频次
  • 友情链接的作用

    友链的作用

    如果说你对于友情链接作用,只是认为可以提升网站的权重,那么只能证明你狭隘了。说真的其实现在友情链接对于网站权重的贡献并不是其最重要的作用,今天我们就讲一下友情链接还有哪些作用。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1349
    • 友链的作用
  • 网站建站没有考虑SEO优化的弊端

    网站建站SEO优化

    今天来讨论一个问题先有SEO还是先有网站呢?一个个小小的先后顺序结果却是天壤之别。大多数的情况都是网站先存在,然后觉得需要一个SEO然后就招来一个SEO来优化网站,一般来说这样的网站都是一个巨坑,如果建站的懂一点SEO那么还好,反之那么基本上都是人间悲剧。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1511
    • 网站建站SEO优化
  • 站内SEO图片优化技巧

    站内SEO图片优化

    网站内部会出现大量的图片内容,发现搜索引擎对于图片的识别是不太完善的,所以做好图片SEO优化非常关键了。站内SEO图片优化主要是给搜索引擎留下好印象,让它能够顺利的爬取网站链接,收录网站页面。小编认为图片SEO优化对于网站整体的排名还是很有影响的,下面来看看具体内容:

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1203
    • 站内SEO图片优化
  • SEO入门到精通需要掌握的知识

    SEO入门教程

    简单理解:SEO实际上是指搜索引擎优化,主要的目的是基于SERP(搜索结果),通过更加符合搜索引擎抓取、索引、排名的方法,有针对性的调整自有网站的相关数据指标,从而提高目标网站相关关键词的排名。 那么对于SEO优化入门者需要掌握哪些知识点,走向精通。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2129
    • SEO入门教程
  • 网站SEO优化之关键词稀缺性

    SEO优化,关键词,稀缺性

    如果你的站点不管怎么优化,很大可能就是关键词选择有误,正确的关键词是SEO优化成功的关键。​SEO优化的目的是流量的获取,而网站的流量则是各个关键词流量的总和,同时流量的质量类中则则是由关键所决定,因此网站优化原则正确的关键词对于站点的优化效果以及转化效果至关重要。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 656
    • SEO优化
    • 关键词
    • 稀缺性
  • 如何批量查询收录

    网站收录批量查询,收录查询代码

    介绍一个可以自制的批量快速查询网站收录情况的工具,只需要简单的几行代码,就可以实现批量查询,从此不必一条条去手动查询收录,或者依靠第三方工具了。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1434
    • 网站收录批量查询
    • 收录查询代码
  • 移动落地页中如何设置咨询功能?

    咨询框怎么设置

    移动落地页中如何设置咨询功能?才是更加符合SEO规范呢?咨询类功能在当前页只能出现一次,且位置不允许出现在顶部;在用户未主动点击的情况下,咨询的对话窗口不可自动弹出;咨询按钮可在底部或侧面悬浮,但面积不宜过大干扰用户浏览。”

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1352
    • 咨询框怎么设置
  • 黑帽和白帽SEO区别

    黑帽和白帽seo

    黑帽和白帽SEO区别,白帽SEO通常需要时间的积累,注重长远的利益,关键词排名做上去之后不容易掉排名。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1183
    • 黑帽和白帽seo