百度spider 主要抓取策略类型

spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider即是通过这种系统的通力合作完成对互联网页面的抓取工作。
但其实Baiduspider在抓取过程中面对的是一个超级复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。以下做简单介绍:

1、抓取友好性

互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题,耗费被抓网站的带宽造成访问压力,如果程度过大将直接影响被抓网站的正常用户访问行为。因此,在抓取过程中就要进行一定的抓取压力控制,达到既不影响网站的正常用户访问又能尽量多的抓取到有价值资源的目的。
通常情况下,最基本的是基于ip的压力控制。这是因为如果基于域名,可能存在一个域名对多个ip(很多大网站)或多个域名对应同一个ip(小网站共享ip)的问题。实际中,往往根据ip及域名的多种条件进行压力调配控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时百度spider将优先按照站长的要求进行抓取压力控制。
对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如夜深人静月黑风高时候抓取的可能就会快一些,也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断的调整。对于不同站点,也需要不同的抓取速度。

2、常用抓取返回码示意

简单介绍几种百度支持的返回码:
1)最常见的404代表“NOT FOUND”,认为网页已经失效,通常将在库中删除,同时短期内如果spider再次发现这条url也不会抓取;
2)503代表“Service Unavailable”,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503状态码,百度spider不会把这条url直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回503,那么这条url仍会被认为是失效链接,从库中删除。
3)403代表“Forbidden”,认为网页目前禁止访问。如果是新url,spider暂时不抓取,短期内同样会反复访问几次;如果是已收录url,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条url也会被认为是失效链接,从库中删除。
4)301代表是“Moved Permanently”,认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时,我们推荐使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。

抓取策略类型

3、多种url重定向的识别

互联网中一部分网页因为各种各样的原因存在url重定向状态,为了对这部分资源正常抓取,就要求spider对url重定向进行识别判断,同时防止作弊行为。重定向可分为三类:http 30x重定向、meta refresh重定向和js重定向。另外,百度也支持Canonical标签,在效果上可以认为也是一种间接的重定向。

4、抓取优先级调配

由于互联网资源规模的巨大以及迅速的变化,对于搜索引擎来说全部抓取到并合理的更新保持一致性几乎是不可能的事情,因此这就要求抓取系统设计一套合理的抓取优先级调配策略。主要包括:深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、社会化分享指导策略等等。每个策略各有优劣,在实际情况中往往是多种策略结合使用以达到最优的抓取效果。

5、重复url的过滤

spider在抓取过程中需要判断一个页面是否已经抓取过了,如果还没有抓取再进行抓取网页的行为并放在已抓取网址集合中。判断是否已经抓取其中涉及到最核心的是快速查找并对比,同时涉及到url归一化识别,例如一个url中包含大量无效参数而实际是同一个页面,这将视为同一个url来对待。

6、暗网数据的获取

互联网中存在着大量的搜索引擎暂时无法抓取到的数据,被称为暗网数据。一方面,很多网站的大量数据是存在于网络数据库中,spider难以采用抓取网页的方式获得完整内容;另一方面,由于网络环境、网站本身不符合规范、孤岛等等问题,也会造成搜索引擎无法抓取。目前来说,对于暗网数据的获取主要思路仍然是通过开放平台采用数据提交的方式来解决,例如“百度站长平台”“百度开放平台”等等。

7、抓取反作弊
spider在抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统。例如分析url特征、分析页面大小及内容、分析站点规模对应抓取规模等等。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seozhishi/1057spider

相关文章

  • 被k网站的症状,恢复需要多久,如何操作呢?

    被k网站恢复,降权

    网站被K也是常有的事情,一夜之间前功尽弃的站点屡见不鲜,那么网站被K之后如何处理才能尽快的恢复,站点又如何预防K站的情况发生呢!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1078
    • 被k网站恢复
    • 降权
  • 图片懒加载对于SEO优化有影响吗?

    懒加载,延迟加载,seo优化

    网站图片使用懒加载也就是延迟加载技术,对于SEO优化会有不良的负面影响吗?对于图片的延迟加载我们应该如何去看待处理,才能做到兼顾网站的加载速度以及SEO优化的效果呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2193
    • 懒加载
    • 延迟加载
    • seo优化
  • 什么是网站权重,如何快速提升

    提升权重,

    相信SEO优化人员都是非常关注自己站点权重,更甚者有些公司招聘考核都是按照权重来的,对于这种行为我只能说非常的不专业。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1173
    • 提升权重
  • 百度索引量变化追查投诉方法

    百度索引量

    当百度索引量发生大幅度下跌时,如何进行原因的筛选来确定是正常波动,还是异常波动,及索引量下跌原因的排查方法及解决方案。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1440
    • 百度索引量
  • 301跳转与SEO优化的那些事

    301跳转,重定向,SEO优化

    ​在网站改版的时候经常会用到301跳转,301重定向是将当前链接永久指向一个新的网址。当网站改版的时候,网站的链接发生变化之后,而原链接都是有排名的,所以就需要做重定向避免流量的损失。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 861
    • 301跳转
    • 重定向
    • SEO优化
  • 新站收录与老站收录的区别

    新站收录,老站收录,seo优化

    导致网站不收录的原因有很多,想要解决收录问题,那么首先需要找到站点不收录的原因。但是很多站点在寻找原因的时候第一个方向就错了,对于老站和新站不收录的原因是有很大区别的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1257
    • 新站收录
    • 老站收录
    • seo优化
  • 百度如何提交链接,快速收录

    seo链接提交,如何加快收录

    百度的4种链接提交方式的介绍,他们之间的区别,以及各自的特点,对于seo优化用哪一种提交方式可以花更少的时间,但是可以获得更快的收录速度,提高推送效率,增加网站的收录总数。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 8126
    • seo链接提交
    • 如何加快收录
  • 长期不收录的页面如何处理?

    收录

    相信大家在日常的SEO优化工作中必然会遇到网站页面不收录的问题,那么我们应该如何得到正确对待和处理这些长期不收录的页面,出现问题不是最可怕的,可怕的是采取了错误的处理方式,加剧了问题和引出了更多的问题。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 907
    • 收录
  • TAG标签的好处

    TAG标签的好处

    ​TAG标签对于SEO优化有一定的作用,但是使用不当很有可能起到反向作用。对于TAG标签的优化,对于网站内容的布局能力是十分考验的,没有强大的内容和技术支撑是很难达到理想的效果的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2234
    • TAG标签的好处
  • 做seo常用的4个标签

    SEO常用标签

    在做seo的时候,经常会碰到网站页面的标签的使用问题,这些标签你不得不好好对待。因为这些标签可以帮助日后的网站优化,并且很有利于提高网站权重。那么下面就和你说下做seo常用的4个标签:

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1913
    • SEO常用标签
  • 品牌词监控对于SEO优化的重要性

    品牌词监,SEO优化

    流量监控是每个站点都会去做的一件事,但是大多数非常宽泛的一个统计,并不会精确到关键词的流量的变化,当然精力有限不可能去统计所有关键词,但是网站的一些核心关键词的排名和流量变化是必须要监控的,尤其是站点的品牌词。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1359
    • 品牌词监
    • SEO优化
  • 百度搜索引擎蜘蛛喜欢什么样的网站结构

    seo网站结构

    百度搜索引擎蜘蛛喜欢什么样的网站结构?希望能在百度获得好的排名、更多优质低价的流量,这个前提就是网站得有好的结构,百度蜘蛛才能顺利、快速的抓取,也就是说网站结构是关键词排名、链接优化、内容优化的前提。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1810
    • seo网站结构
  • 网站怎么赚钱

    网站怎么赚钱

    对于企业站点,主要目的就是通过业务模式来转化,那么对于个人站点不存在所谓的业务需求那么又要如何去赚钱呢?对于个人站点的赚钱主要可以通过流量、广告、站点出售等获取。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 952
    • 网站怎么赚钱
  • 百度绿萝算法打击哪些行为

    绿萝算法

    百度绿萝算法解读,绿萝算法是一种为了打击通过买卖链接干扰搜索引擎算法获得排名的行为而设计的,主要为了保证搜索排名的公平性,保护真正有价值内容获得更高的流量,保障了搜索引擎生态的健康发展。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1832
    • 绿萝算法
  • 权威性在百度搜索排名中的作用

    百度搜索,排名,权威性

    对于百度搜索引擎排名有一个非常重要的因素就是站点权威性,相信很多人对于权威性并不是非常的了解,今天我们就从百度搜索中的作用、什么是权威性、如何评估权威性和权威性之官方结果四个方面进行解读。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1912
    • 百度搜索
    • 排名
    • 权威性
  • nofollow标签对于网站优化的作用

    nofollow标签,内链优化,外链优化

    nofollow标签对于网站优化的作用,针对nofollow标签在外链优化以及内链优化中的作用,以及注意事项简单的分析了其作用,对于网站优化还是十分重要的!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1739
    • nofollow标签
    • 内链优化
    • 外链优化
  • SEO警惕“链接农场”与“链接工厂”!

    链接农场,链接工厂

    在如今的搜索引擎优化(SEO)领域,内容为王、用户体验至上已经成为主流共识。然而,仍有一些网站主试图通过“捷径”快速提升排名,其中最具代表性的就是——链接农场和它的“升级版”——链接工厂。今天潘某人SEO带你了解“链接农场”和“链接工厂”的真面目,帮助你避免踩坑!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 464
    • 链接农场
    • 链接工厂
  • 网站内链锚文本布局方法

    锚文本优化

    当搜索引擎抓取页面时,遇到了锚文本链接进行了抓取,如果只是单纯的超链接而不是锚文本,那么对于搜索引擎那么对于链接的内容是一无所知。锚文本的价值就是可以大致的告诉搜索引擎,此链接下的内容大致什么。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1863
    • 锚文本优化