造成百度spider抓取异常的原因

有一些网页,内容优质,用户也可以正常访问,但是Baiduspider却无法正常访问并抓取,造成搜索结果覆盖率缺失,对百度搜索引擎对站点都是一种损失,百度把这种情况叫“抓取异常”。对于大量内容无法正常抓取的网站,百度搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、排序上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。

下面向站长介绍一些常见的抓取异常原因:

1、服务器连接异常

服务器连接异常会有两种情况:一种是站点不稳定,Baiduspider尝试连接您网站的服务器时出现暂时无法连接的情况;一种是Baiduspider一直无法连接上您网站的服务器。
造成服务器连接异常的原因通常是您的网站服务器过大,超负荷运转。也有可能是您的网站运行不正常,请检查网站的web服务器(如apache、iis)是否安装且正常运行,并使用浏览器检查主要页面能否正常访问。您的网站和主机还可能阻止了Baiduspider的访问,您需要检查网站和主机的防火墙。

###2、网络运营商异常
网络运营商分电信和联通两种,Baiduspider通过电信或网通无法访问您的网站。如果出现这种情况,您需要与网络服务运营商进行联系,或者购买拥有双线服务的空间或者购买cdn服务。
抓取异常的原因

3、DNS异常

当Baiduspider无法解析您网站的IP时,会出现DNS异常。可能是您的网站IP地址错误,或者域名服务商把Baiduspider封禁。请使用WHOIS或者host查询自己网站IP地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新您的IP地址。

4、IP封禁

IP封禁为:限制网络的出口IP地址,禁止该IP段的使用者进行内容访问,在这里特指封禁了BaiduspiderIP。当您的网站不希望Baiduspider访问时,才需要该设置,如果您希望Baiduspider访问您的网站,请检查相关设置中是否误添加了BaiduspiderIP。也有可能是您网站所在的空间服务商把百度IP进行了封禁,这时您需要联系服务商更改设置。

5、UA封禁

UA即为用户代理(User-Agent),服务器通过UA识别访问者的身份。当网站针对指定UA的访问,返回异常页面(如403,500)或跳转到其他页面的情况,即为UA封禁。当您的网站不希望Baiduspider访问时,才需要该设置,如果您希望Baiduspider访问您的网站,useragent相关的设置中是否有Baiduspider UA,并及时修改。

6、死链

页面已经无效,无法对用户提供任何有价值信息的页面就是死链接,包括协议死链和内容死链两种形式:
协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如404、403、503状态等。
内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。
对于死链,我们建议站点使用协议死链,并通过百度站长平台–死链工具向百度提交,以便百度更快地发现死链,减少死链对用户以及搜索引擎造成的负面影响。

7、异常跳转

将网络请求重新指向其他位置即为跳转。异常跳转指的是以下几种情况:
1)当前该页面为无效页面(内容已删除、死链等),直接跳转到前一目录或者首页,百度建议站长将该无效页面的入口超链接删除掉
2)跳转到出错或者无效页面
注意:对于长时间跳转到其他域名的情况,如网站更换域名,百度建议使用301跳转协议进行设置。

8、其他异常:

1)针对百度refer的异常:网页针对来自百度的refer返回不同于正常内容的行为。
2)针对百度ua的异常:网页对百度UA返回不同于页面原内容的行为。
3)JS跳转异常:网页加载了百度无法识别的JS跳转代码,使得用户通过搜索结果进入页面后发生了跳转的情况。
4)压力过大引起的偶然封禁:百度会根据站点的规模、访问量等信息,自动设定一个合理的抓取压力。但是在异常情况下,如压力控制失常时,服务器会根据自身负荷进行保护性的偶然封禁。这种情况下,请在返回码中返回503(其含义是“Service Unavailable”),这样Baiduspider会过段时间再来尝试抓取这个链接,如果网站已空闲,则会被成功抓取。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seozhishi/1060spider

相关文章

  • 收录数量和网站排名的关系

    收录数和排名的关系

    seo优化之网站文章的收录是不是越多对排名越好?答案肯定不是,因为很简单所有的事情不是一概而论的;大家可以去随便找几个相关领域的网站对比下,你就可以发现有的网站收录数量只有几千,但是权重却要高于收录数量几十万的网站。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1579
    • 收录数和排名的关系
  • 网站Site出图率是什么?对排名有什么影响?

    Site出图率

    网站Site出图率是什么?对排名有什么影响?对于SEO优化来说网站的site出图率越高越好,这个更主要的处于在吸引用户点击作用上的考量,有图片的内容更容易获取用户的目光,提高了获得点击的几率,对于关键词的排名可以起到一个很好的促进作用。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1432
    • Site出图率
  • 什么是nofollow标签

    nofollow标签

    解释了什么是nofollow标签,以及nofollow标签的只用方法,以及对于SEO的作用,合理利于这个标签可以集中页面的权重分配传递!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1744
    • nofollow标签
  • 收录和索引别搞混了!

    收录,索引

    ​我敢说很多人连收录和索引都会搞错,当你觉得这么简单的怎么可能错的时候,搞不好你就是其中之一,今天就你了解下收录和索引的区别,各个搜索引擎大同小异,以百度搜索引擎为例。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1218
    • 收录
    • 索引
  • 如何防止网站内容被复制

    防止复制,js

    通过js修改document上的相关属性值来实,防止网站内容被复制。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1439
    • 防止复制
    • js
  • site首页位置不在第一怎么办

    site命令,site首页

    很多站长在网站优化的时候会特别的关注网站site首页的排名位置,当首页不在第一位的时候就会非常的不安,觉得网站出现了问题,认为站点被降权了。但是网站site首页不在首位很多原因都会造成这种结果。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1535
    • site命令
    • site首页
  • 不同域名后缀对于SEO优化的影响

    域名后缀,SEO优化

    域名在注册的时候后缀的选择性还是很大的,对于站长们会有疑虑不同的域名后缀对于seo优化效果是否会产生不同的影响,搜索引擎是否会对不同后缀域名区别对待。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1255
    • 域名后缀
    • SEO优化
  • CDN防止网站被黑攻击

    CDN,网站被黑

    CDN的可以有效的隐藏网站的真实的IP地址,用户访问到的是离自己最近的CDN服务器;不仅仅加快了全球各地用户的访问速度体验,同时因为IP的隐藏,加大了攻击者访问到真实地址的难度,另一方学会如何设置好服务器的安全组,也可以有效防止网站被黑。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1146
    • CDN
    • 网站被黑
  • 网页打开速度很慢,对SEO有何影响

    网页打开速度,SEO影响因素

    网站打开速度是很多站点在优化的时候比较容易忽视的问题,然后网站打开速度慢不仅对于SEO优化会有很大的影响,对于网站的流量转化也会造成直接巨大的影响。今天来探讨下网站打开速度对于SEO有什么影响,又如何去提升网站的速度呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1565
    • 网页打开速度
    • SEO影响因素
  • 百度搜索引擎Spider抓取系统的基本框架

    搜索引擎,百度spider

    互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider等。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 953
    • 搜索引擎
    • 百度spider
  • 如何看网站日志对于seo优化的重要性

    网站日志的作用

    如何看网站日志对于seo优化的重要性!可以及时的发现网络攻击,以及采集行为;可以更好保护站点的安全性,更加有利于网站的seo优化。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1982
    • 网站日志的作用
  • 网站备案对于SEO优化有影响吗?

    网站备案,SEO优化,权威性

    ​网站备案的注意事项,关于网站未备案对于SEO优化排名是否有影响争议不断,有部分人始终认为网站备案和SEO之间没有任何的影响。网站进行ICP备案是提升网站权威性的因素中较为重要的一个。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 844
    • 网站备案
    • SEO优化
    • 权威性
  • 内容权威性对网站排名的影响

    权威性与排名

    你知道吗网站内容的权威性一定程度上决定了网站的质量以及排名。你知道什么是权威性呢,我们应该如何去优化网站才可以提网站在领域内的权威性呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1166
    • 权威性与排名
  • SEO优化的具体流程,从无到有

    SEO优化流程

    带你揭秘seo优化的正确流程以及成功的关键。经常会有人来问网站seo优化怎么做,有没有一个具体的流程。但是这个真的很难系统的回答,流程肯定是有的,但是能够流程化的只是基础的seo优化层面的内容,但是seo优化站点的情况不同,需要灵活的调整,流程化的东西只能让你做出一点基本效果。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1470
    • SEO优化流程
  • 百度抓取频次忽然下降的原因有哪些?

    抓取频次降低的原因

    百度抓取频次忽然下降的原因有哪些?网站抓取频率不知道作为seoer的大家是否有时常的关注,可以说检查我们的网站是否健康,网站的健康程度,关注这些网站上的日常数据也是seo的工作之一,当然看到有一些小伙伴们问道说, 自己的网站突然遇到了网站抓取频率下降这是为什么?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 7338
    • 抓取频次降低的原因
  • 优化新站一般多久出排名

    新站多久有排名

    做seo的应该都知道,网站优化是一个漫长的过程,seo见效的时间相对来说比较慢,当然我们也想seo的速度能够大大的提升,但是太快的话,被k站的几率也是大大的增加,那么一个正常的网站一般出排名应该是多久呢?下面我们来看看新站出排名的时间。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1477
    • 新站多久有排名
  • 百度爬虫工作原理

    百度蜘蛛原理,抓取频次

    百度爬虫是如何工作的,如何才能提升网站的抓取频次呢?抓取频次的影响因素有哪些?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1453
    • 百度蜘蛛原理
    • 抓取频次
  • 百度死链提交工具使用说明

    百度死链提交

    百度死链提交工具使用说明,当网站死链数据累积过多时,并且被展示到搜索结果页中,对网站本身的访问体验和用户转化都起到了负面影响。另一方面,百度检查死链的流程也会为网站带来额外负担,影响网站其他正常页面的抓取和索引。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 6602
    • 百度死链提交