百度spider 主要抓取策略类型

spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider即是通过这种系统的通力合作完成对互联网页面的抓取工作。
但其实Baiduspider在抓取过程中面对的是一个超级复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。以下做简单介绍:

1、抓取友好性

互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题,耗费被抓网站的带宽造成访问压力,如果程度过大将直接影响被抓网站的正常用户访问行为。因此,在抓取过程中就要进行一定的抓取压力控制,达到既不影响网站的正常用户访问又能尽量多的抓取到有价值资源的目的。
通常情况下,最基本的是基于ip的压力控制。这是因为如果基于域名,可能存在一个域名对多个ip(很多大网站)或多个域名对应同一个ip(小网站共享ip)的问题。实际中,往往根据ip及域名的多种条件进行压力调配控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时百度spider将优先按照站长的要求进行抓取压力控制。
对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如夜深人静月黑风高时候抓取的可能就会快一些,也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断的调整。对于不同站点,也需要不同的抓取速度。

2、常用抓取返回码示意

简单介绍几种百度支持的返回码:
1)最常见的404代表“NOT FOUND”,认为网页已经失效,通常将在库中删除,同时短期内如果spider再次发现这条url也不会抓取;
2)503代表“Service Unavailable”,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503状态码,百度spider不会把这条url直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回503,那么这条url仍会被认为是失效链接,从库中删除。
3)403代表“Forbidden”,认为网页目前禁止访问。如果是新url,spider暂时不抓取,短期内同样会反复访问几次;如果是已收录url,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条url也会被认为是失效链接,从库中删除。
4)301代表是“Moved Permanently”,认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时,我们推荐使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。

抓取策略类型

3、多种url重定向的识别

互联网中一部分网页因为各种各样的原因存在url重定向状态,为了对这部分资源正常抓取,就要求spider对url重定向进行识别判断,同时防止作弊行为。重定向可分为三类:http 30x重定向、meta refresh重定向和js重定向。另外,百度也支持Canonical标签,在效果上可以认为也是一种间接的重定向。

4、抓取优先级调配

由于互联网资源规模的巨大以及迅速的变化,对于搜索引擎来说全部抓取到并合理的更新保持一致性几乎是不可能的事情,因此这就要求抓取系统设计一套合理的抓取优先级调配策略。主要包括:深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、社会化分享指导策略等等。每个策略各有优劣,在实际情况中往往是多种策略结合使用以达到最优的抓取效果。

5、重复url的过滤

spider在抓取过程中需要判断一个页面是否已经抓取过了,如果还没有抓取再进行抓取网页的行为并放在已抓取网址集合中。判断是否已经抓取其中涉及到最核心的是快速查找并对比,同时涉及到url归一化识别,例如一个url中包含大量无效参数而实际是同一个页面,这将视为同一个url来对待。

6、暗网数据的获取

互联网中存在着大量的搜索引擎暂时无法抓取到的数据,被称为暗网数据。一方面,很多网站的大量数据是存在于网络数据库中,spider难以采用抓取网页的方式获得完整内容;另一方面,由于网络环境、网站本身不符合规范、孤岛等等问题,也会造成搜索引擎无法抓取。目前来说,对于暗网数据的获取主要思路仍然是通过开放平台采用数据提交的方式来解决,例如“百度站长平台”“百度开放平台”等等。

7、抓取反作弊
spider在抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统。例如分析url特征、分析页面大小及内容、分析站点规模对应抓取规模等等。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seozhishi/1057spider

相关文章

  • SEO优化必须掌握的robots文件协议

    robots,SEO优化

    robots文件使用来申明网站哪些内容允许搜索引擎抓取,哪些内容禁止搜索引抓取的;正确的设置robots可以提升搜索引擎对网站的抓取效率,同时避免不必要的内容被抓取展现。但在实际运用中很多站点没有正确的使用robots导致了一些问题,今天潘某人SEO就为大家揭秘下robots的注意点。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1117
    • robots
    • SEO优化
  • 网站优化要不要制作sitemap

    sitemap,网站地图

    网站优化到底需不要要制作sitemap地图呢?sitemap地图的作用又是什么呢?可以提升网站的收录速度吗?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1906
    • sitemap
    • 网站地图
  • 下载站注意,清风算法4.0来了

    清风算法4.0,SEO算法,下载站

    如果你的站点是下载站,那么请一定进来看下百度清风算法4.0版本,2021-09-02百度搜索资源平台发布公告对清风算法进行升级,进入了4.0版本。本次清风算法升级加大了针对不符合规范的低质下载站,将限制其在百度搜索结果中的展现。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1646
    • 清风算法4.0
    • SEO算法
    • 下载站
  • 网站为什么不收录

    网站不收录

    有些站点不管怎么折腾就是不收录,那你知道不收录的原因吗?我们如何知道站点不收录的原因。网站不收录的原因,大致可以分类两类:内容没有被抓取到和网站存在违规不符合收录标准。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1097
    • 网站不收录
  • 百度统计事件跟踪怎么添加

    百度统计事件跟踪,_trackEvent

    百度统计事件跟踪_trackEvent怎么添加使用,以一个页面点击的追踪统计作为一个例子。来演示下如何部署使用百度统计的事件分析js-api接口。学会合理利用事件分析功能,会对数据统计的灵活度有很大的提升,不仅对于SEO优化,网站的转化优化都可以提供强有力的支持。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2499
    • 百度统计事件跟踪
    • _trackEvent
  • SEO优化的基础要素

    SEO优化

    根据多年的SEO优化经验,为大家总结下SEO优化的基础要素,可以说以下几点搞清楚对于网站收录提升是非常重要的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 930
    • SEO优化
  • 网站标题关键词结构布局

    网站标题布局

    网站标题关键词结构布局,对于网站结构比较复杂的网站,那么为了使得网站结构有一定的条理性,那么这么网站的标题就需要一定的布局。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1569
    • 网站标题布局
  • 如何快速的生成sitemap网站地图

    sitemap,如何制作,网站地图

    如何快速的生成sitemap网站地图,我们不能依靠工具来实现,因为逻辑上就走不通,其实通过数据库可以快速有效的生成最有价值的sitemap网站地图。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1899
    • sitemap
    • 如何制作
    • 网站地图
  • SEO优化的常规策略

    SEO优化策略

    凡事都先要有计划,对于SEO优化首先要确立站点的优化策略和方针,劲往一处使才可以更快获得更好的效果。今天我们就来说一下如何正确的选择优化策略,避免走弯路,好的开始是成功的一半,走错方向越努力离成功就越远。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 947
    • SEO优化策略
  • 如何才能让移动端获得更好的排名

    移动端排名优化

    移动端获得更好的排名?同PC端的需求一样,收录问题解决后面临的就是排序问题了。在介绍排序原则之前先简休介绍一下移动搜索结果的构成,移动搜索主要有如下几类结果构成:移动页面、转码页面、PC页面。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1924
    • 移动端排名优化
  • site出图率的重要性

    site出图率,site命令

    你了解site命令,但是什么是site出图率,site出图的重要性你知道吗?对于网站的点击率的提升有着重要的作用!有什么方式可以增加网站site出图的几率呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1675
    • site出图率
    • site命令
  • seo优化思维重点是什么呢

    seo思维重点

    你对于SEO优化的核心重要真的了解吗?还在讲把网站的权重流量作为一直努力的方向吗?想方设法的去提升权重排名,但是你想过这一切到底有多大的意义呢?很显然对于SEO优化来说这些不是最核心的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1313
    • seo思维重点
  • description标签重要吗,还要写吗

    description标签重要吗

    Description标签就是就是常说的页面描述标签,是页面核心TDK标签的其中之一,那么如今description标签还重要吗,还有必要去写描述标签吗?个人觉得描述标签不是很重要,但又是很重要的,看似矛盾其实只是所站的角度不一样。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3466
    • description标签重要吗
  • 如何在SEO竞争中脱颖而出

    SEO竞争

    在这个信息爆炸的时代,想要让你的网站在众多竞争对手中脱颖而出,并不是一件容易的事情。但别担心,通过遵循一些关键策略,你可以显著提升你的站点排名,吸引更多的访问者。今天,就和潘某人SEO来探讨一下要想做好SEO,需要注意哪些方面。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 535
    • SEO竞争
  • 多个域名对网站seo有什么影响

    多域名解析

    多个域名对网站seo的影响你知道吗?对于多域名解析的态度就是能不用就千万别用,对于网站权重和收录都会有着严重的影响,处理不当那么对于网站优化是一个致命伤。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2407
    • 多域名解析
  • MIP Cache 服务下线通知

    MIP Cache关闭

    MIP Cache 服务下线通知,MIP Cache 服务至目前为止已上线了三年多,为 Web 生态输出了优质资源和更为快速的网页浏览体验。2020年6月1日 - 2020年6月30日:关闭站长平台 MIP 入口,逐步清退下线 MIP Cache 服务。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2180
    • MIP Cache关闭
  • 移动网站建设常见问题

    移动网站建设常见问题

    移动站点变得越来越重要,那么我们应该如何做好移动站呢。移动站点和PC站点相辅相成,都是一个互为补充的关系,少了任何一个都是不合理的,那么在移动站点的优化中常见的问题有哪些呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1840
    • 移动网站建设常见问题
  • 百度白杨算法解析

    白杨算法

    白杨算法”的作用:为更好满足川户地域化需求,也更好扶持各种地方特色类站点,百度移动搜索推出白杨算法,对符合百度地域优化标准的优质站点进行优先展现。“白杨算法”:为方便用户根据自身位置查找和使用本地信息与服务,帮助移动站点健康、稳定地提升流量,百度移动搜索现提供地域优化服务。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2011
    • 白杨算法