造成百度spider抓取异常的原因

有一些网页,内容优质,用户也可以正常访问,但是Baiduspider却无法正常访问并抓取,造成搜索结果覆盖率缺失,对百度搜索引擎对站点都是一种损失,百度把这种情况叫“抓取异常”。对于大量内容无法正常抓取的网站,百度搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、排序上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。

下面向站长介绍一些常见的抓取异常原因:

1、服务器连接异常

服务器连接异常会有两种情况:一种是站点不稳定,Baiduspider尝试连接您网站的服务器时出现暂时无法连接的情况;一种是Baiduspider一直无法连接上您网站的服务器。
造成服务器连接异常的原因通常是您的网站服务器过大,超负荷运转。也有可能是您的网站运行不正常,请检查网站的web服务器(如apache、iis)是否安装且正常运行,并使用浏览器检查主要页面能否正常访问。您的网站和主机还可能阻止了Baiduspider的访问,您需要检查网站和主机的防火墙。

###2、网络运营商异常
网络运营商分电信和联通两种,Baiduspider通过电信或网通无法访问您的网站。如果出现这种情况,您需要与网络服务运营商进行联系,或者购买拥有双线服务的空间或者购买cdn服务。
抓取异常的原因

3、DNS异常

当Baiduspider无法解析您网站的IP时,会出现DNS异常。可能是您的网站IP地址错误,或者域名服务商把Baiduspider封禁。请使用WHOIS或者host查询自己网站IP地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新您的IP地址。

4、IP封禁

IP封禁为:限制网络的出口IP地址,禁止该IP段的使用者进行内容访问,在这里特指封禁了BaiduspiderIP。当您的网站不希望Baiduspider访问时,才需要该设置,如果您希望Baiduspider访问您的网站,请检查相关设置中是否误添加了BaiduspiderIP。也有可能是您网站所在的空间服务商把百度IP进行了封禁,这时您需要联系服务商更改设置。

5、UA封禁

UA即为用户代理(User-Agent),服务器通过UA识别访问者的身份。当网站针对指定UA的访问,返回异常页面(如403,500)或跳转到其他页面的情况,即为UA封禁。当您的网站不希望Baiduspider访问时,才需要该设置,如果您希望Baiduspider访问您的网站,useragent相关的设置中是否有Baiduspider UA,并及时修改。

6、死链

页面已经无效,无法对用户提供任何有价值信息的页面就是死链接,包括协议死链和内容死链两种形式:
协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如404、403、503状态等。
内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。
对于死链,我们建议站点使用协议死链,并通过百度站长平台–死链工具向百度提交,以便百度更快地发现死链,减少死链对用户以及搜索引擎造成的负面影响。

7、异常跳转

将网络请求重新指向其他位置即为跳转。异常跳转指的是以下几种情况:
1)当前该页面为无效页面(内容已删除、死链等),直接跳转到前一目录或者首页,百度建议站长将该无效页面的入口超链接删除掉
2)跳转到出错或者无效页面
注意:对于长时间跳转到其他域名的情况,如网站更换域名,百度建议使用301跳转协议进行设置。

8、其他异常:

1)针对百度refer的异常:网页针对来自百度的refer返回不同于正常内容的行为。
2)针对百度ua的异常:网页对百度UA返回不同于页面原内容的行为。
3)JS跳转异常:网页加载了百度无法识别的JS跳转代码,使得用户通过搜索结果进入页面后发生了跳转的情况。
4)压力过大引起的偶然封禁:百度会根据站点的规模、访问量等信息,自动设定一个合理的抓取压力。但是在异常情况下,如压力控制失常时,服务器会根据自身负荷进行保护性的偶然封禁。这种情况下,请在返回码中返回503(其含义是“Service Unavailable”),这样Baiduspider会过段时间再来尝试抓取这个链接,如果网站已空闲,则会被成功抓取。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seozhishi/1060spider

相关文章

  • SEO如何正确的进行工作交流沟通

    SEO,工作交流,沟通

    今天这个话题就非常的有意思,不管是不是从事SEO都可以看一下,和每个人息息相关,就是在工作中如何正确的进行交流。大家觉得交流沟通的重点是什么?我说是解决问题大家没有意见吧!交流沟通最终的目的必然是解决问题。但是在现实中,大部分的交流沟通是没有结果的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 864
    • SEO
    • 工作交流
    • 沟通
  • 做seo优化排名赚钱吗?

    seo优化赚钱吗

    做seo优化排名赚钱吗?seo优化现在还好做吗?搜索引擎是个大市场,如果想在市场里买东西,就要打广告,所以seo优化不会过时,并且会是一个赚钱的行业。不论是以后做什么行业,我都觉得seo都是不可或缺的技术,因为任何行业都需要做广告推广,而seo则是经济实惠的选择。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2450
    • seo优化赚钱吗
  • 如何用代码批量查询收录

    批量收录查询代码

    如何用代码批量查询百度360搜狗收录,对于SEO优化来说收录是大家比较关注的,一般使用的查询方法是拿页面的URL或者标题去对应的搜索引擎手动查询收录,但是存在这局限性,今天就来分享一下如何通过代码实现网站收录查询。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1837
    • 批量收录查询代码
  • “TF-IDF”算法与网站SEO关系

    TF-IDF算法

    “TF-IDF”算法与网站SEO关系?这个算法决定着什么样的词可以成为网站的关键词,同时决定着页面在搜索引擎的排名竞争力。TF-IDF​是一种核算方法,用以评价一字词关于一个文件集或一个语料库中的其间一份文件的重要程度。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2948
    • TF-IDF算法
  • SEO必须的知道–百度算法大汇总

    百度算法,算法解析

    百度算法大全,解析主要的百度算法跟新,算法主要可以分为5大类,分别是网站内容质量、用户需求满足、搜索恶意竞争、网站安全问题、落地页体检问题。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2654
    • 百度算法
    • 算法解析
  • SEO外包靠谱吗?

    SEO外包

    SEO外包靠谱吗?你会选择外包吗?你觉得会有效果吗?为什么大多数站点SEO优化最终失败了?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1057
    • SEO外包
  • 突然发现大多数网站应用都不堪一击

    并发测试,攻击防御

    相信很多人都听说过网络攻击,有时候商战就会采用最朴实无华的下三滥手段,但是别慌对于大多数站点来说根本没有攻击的价值,听着有点可怜哈哈哈。毕竟大规模的DDos或CC攻击也是挺费资源挺费钱的,但是最近潘某人SEO突然意识到一个可怕的事实,大多数网站真的是不堪一击,没有任何的防御,基础的防御都没有,攻击者可以零成本瞬间使网站或应用宕机。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 442
    • 并发测试
    • 攻击防御
  • 百度新闻检索准入规则更新

    新闻源准入规则

    2021-04-16百度更新了“新闻资讯”的准入规则,“为满足用户对高时效性新闻资讯的需求,百度新闻检索数据分发策略在2017年由人工运营+策略识别的新闻源升级为纯机器识别的分发策略,符合准入标准的百家号内容和网站内容,无需申请都有机会通过百度时效性产品展现给用户。”

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1480
    • 新闻源准入规则
  • 百度收录速度与网站权重的关系

    权重与收录速度

    百度收录速度与网站权重的关系?网站权重越高是不是收录速度就越快,是不是只要网站权重足够高网站内容就可以做到秒收录呢?对于新站来说低权重站点是不是就无法做到内容的快速收录呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1608
    • 权重与收录速度
  • 移动端适配解决方案

    移动端适配

    随着移动互联网的不断发展,在某些领域移动端的流量已经远超PC端,因此越来越多的站点开始重视移动端的优化,如何把移动端和PC端进行结合,对于SEO优化是一个非常重要的问题。移动适配的方案有很多,选择合适的移动适配解决方案是非常的重要的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1337
    • 移动端适配
  • 百度不收录网站怎么办

    网站不收录

    百度不收录网站怎么办,不收录对于SEO人员来说是一个致命一击。我们如何才能保证网站出现不收录的问题,当网站出现收录问题的时候我们又应该如何应对呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1248
    • 网站不收录
  • 图片字体版权你注意了吗?

    图片版权,字体版权

    如果作为一个网站运营者,对于图片字体版权没有一个正确的认知,那么在你盈利之前可能就要做一个赔钱货了!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1257
    • 图片版权
    • 字体版权
  • 原创内容收录更快吗

    原创内容的收录

    分析下,原创内容在网站优化时对于收录的作用,从深层阐述了,原创性高不一定就可以获得好的收录和排名。对于seo优化来说正真需要的并不是简单的原创,而是需要........

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2962
    • 原创内容的收录
  • 网页内容大小影响收录吗

    网页收录,网页大小

    收录是站长们关心的问题,那么你觉得网页的大小会影响页面的收录吗?大多数的观点是认为字数一定要多,字数太少会导致内容质量低下,不容易收录。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1113
    • 网页收录
    • 网页大小
  • nginx网站域名重定向怎么做

    nginx重定向,网站域名重定向

    网站上线最基础的一步就是确立域名如何重定向,如果最优的设置重定向。一方面要确立网站主域,另一方面跳转配置不遗漏并且尽可能减少没必要的跳转。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1360
    • nginx重定向
    • 网站域名重定向
  • h5哪些标签可以seo优化

    h5标签,seo优化

    HTML5中可以用哪些代码标签来做SEO搜索引擎优化?H5中的标签可以使得网页内容更加结构化,可以更加清楚的展示页面内容的结构,可以提升对于搜索引擎的友好性,可以更加容易的识别网站内容以及站点的类型。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2528
    • h5标签
    • seo优化
  • 移动网页怎么快速排名

    移动排名优化

    移动网页怎么快速排名?从移动网站准备阶断、移动页面细节把握、搜索引擎工具这三方来讲下如何对于移动端的优化。为了让移动页面有较好的收录,在网站准备阶断就要进行考虑。首先,移动网站与pc网站一样,选择简短、易懂、注册年限较长的域名有利于搜索引擎收录。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1443
    • 移动排名优化
  • 必应搜索引擎如何进行手动URL提交

    URL提交,必应

    必应搜索引擎找不要手动URL提交入口的速度来看解决方案。如何在必应搜索引擎上提交站点的URL链接呢?有很多小伙伴反馈,在必应站长工具后台找不到手动提交URL的入口,今天潘某人SEO就来分享下,如何在必应搜索引擎站长后台进行手动URL连接的提交。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 6771
    • URL提交
    • 必应