巧用Robots避免蜘蛛黑洞

搜索引擎的蜘蛛黑洞指的是搜索引擎蜘蛛在抓取站点内容的时候出现了大量雷同内容的url,导致搜索引擎蜘蛛一直被困在无限的循环中,如黑洞一般。直接的结果就会导致消耗大量的抓取资源。

​对于站点来说,每天的抓取额度是有限的,尤其是对于抓取量偏低的站点,则应该更要重视蜘蛛黑洞的出现,要实现高质量内容的优先抓取。长期的蜘蛛黑洞对于站点的收录是非常不利的,轻则影响站点的收录,重则会导致搜索引擎引擎因为有价值内容抓取不到而调低抓取频次。

常见的蜘蛛黑洞

蜘蛛黑洞的主要特征,页面内容相似,或者蜘蛛抓取页面链接会继续进入相类似页面。通常出现在页面的搜索或者筛选页面。

搜索页面当搜索词相近的时候页面的内容是高度重复,而对于站点是无法控制用户不去搜索相似关键词。另外很多站点会有筛选的功能,比如列表页存在通过筛选条件去对页面内容进行筛选,这种情况是最糟糕的,页面内容是在相同的内容中取出不过相同结果的内容,并且url是相同的只是参数不一样。

# 举例有一个列表页面的链接是,内容是seo相关的
https://www.chateach.com/seo
# 当用户筛选,seo相关的算法
https://www.chateach.com/seo?type=seo算法
1
2
3
4

如上所示的,不管是搜索页面还是页面的筛选,对于相同的页面进行结果的筛选的时候本质上是同一个地址,只是后面的参数不同 ,而对于搜索引擎url带有不同的参数也是作为不同的url内容来抓去对待的。如果当这类页面足够多,搜索引擎便会抓取大量此类页面,抓取获得的内容基本都是相似的。

如何避免蜘蛛黑洞

解决蜘蛛黑洞问题很简单,只需要在robots.txt文件中配置,禁止抓取带有参数的页面就可以实现了,但在实际中部分的带有参数页面也是存在一定价值的,但是这个就需要人工去筛选处理下。

# 屏蔽所有搜索引擎对于动态页面的抓取
User-agent: *
Disallow: /*?*
1
2
3

robots更新
对于排除对于这部分动态参数页面的屏蔽,但我更推荐还是屏蔽所有动态参数页面,将有价值的页面人工筛选之后生成独立的页面,如果可以将有价值的搜索结果页面作为tag页面去实现,这个可以根据自己站点情况灵活处理。

配置好robots文件之后,一般需要等待1周左右的时间生效,对于百度搜索引擎,可以进入站长搜索资源平台刚更新robots加速​规则的生效。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seozhishi/975robots

相关文章

  • robots文件有什么用

    robots有什么作用

    robots文件作用对于SEO优化不可忽视给i,可以有效提高网站内容的质量减少重复收录,保护隐私数据不被抓取!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1832
    • robots有什么作用
  • robots文件里该不该加上sitemap地址

    robots里放sitemap

    robots文件里该不该加上sitemap地址,有种说法就是搜索引擎抓取一个网站首先会抓取robots文件,这样把sitemap地址写在robots文件里,这样搜索引擎可以地址直接的对网站地图进行抓取,可以加快链接收录的速度,真相并不是这样

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2605
    • robots里放sitemap
  • 巧用robots避免蜘蛛黑洞

    robots,蜘蛛黑洞

    今天我们来了解下什么是蜘蛛黑洞,黑洞大家应该有一定的了解,属于一种高质量高引力天体,包括光任何的物体都无法逃逸。蜘蛛黑洞既是蜘蛛进入之后无法再出来,对正常的抓取工作产生负面影响。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1538
    • robots
    • 蜘蛛黑洞
  • SEO优化必须掌握的robots文件协议

    robots,SEO优化

    robots文件使用来申明网站哪些内容允许搜索引擎抓取,哪些内容禁止搜索引抓取的;正确的设置robots可以提升搜索引擎对网站的抓取效率,同时避免不必要的内容被抓取展现。但在实际运用中很多站点没有正确的使用robots导致了一些问题,今天潘某人SEO就为大家揭秘下robots的注意点。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1004
    • robots
    • SEO优化
  • robots协议不生效怎么处理

    robots

    为什么明明已经设正确设置的robots的屏蔽规则,但是就是不生效导致不该收录的内容被收录了呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 829
    • robots
  • 如何屏蔽某些页面的抓取,但是让页面中链接正常抓取

    meta标签屏蔽页面抓取

    如何屏蔽某些页面的抓取,但是让页面中链接正常抓取,对于这种情况,使用meta标签来进行屏蔽页面的抓取,可以变得更加的有效。相比常用的robots文件屏蔽,或者nofollow标签屏蔽的实用性更加的广。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3303
    • meta标签屏蔽页面抓取
  • IP地址段表达方式

    IP地址,IP区间段,ip表达式

    ip/8/16/24,IP大家在熟悉不过了,但是大家真的了解IP吗?如何表示一段区间的IP端呢?在网站优化的时候IP的屏蔽是经常需要做的一件事,如果需要屏蔽的IP都在一个段区间内,你还在一个个屏蔽吗,有没有一种快速屏蔽一段IP的方法吗。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3118
    • IP地址
    • IP区间段
    • ip表达式
  • 如何判断网站的优化效果

    seo优化效果

    如何判断网站的优化效果,尤其是新站的效果有什么科学有效的方法去判定网站所处的一个阶段。如果通过数据看出搜索引擎对于站点的评级。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1117
    • seo优化效果
  • 如何通过软文营销来提高关键词排名

    软文SEO优化

    如何通过软文营销来提高关键词排名呢?其中关键的地方就在于关键词的选择和关键词的布局。因为在一篇高质量的软文当中,关键词既不能太多又不能太少。另外对于关键词的选择和使用也是有许多讲究的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1956
    • 软文SEO优化
  • 如何修改浏览器User-Agent

    User-Agent

    演示如何修改User-Agent,通过修改HTTP请求头,我们可以实现浏览不同设备下的网站的展示内容。如何通过修改浏览器User-Agent去访问网页,学会修改浏览器user-agent之后,就可以访问站点的爬虫页。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2265
    • User-Agent
  • SEO优化如何快速提升网站关键词排名

    SEO优化,关键词排名

    对于seo优化最关注的莫过于如何快速的提升网站关键词的排名,但是在实际优化中结果却不符合预期,长时间的优化不断的尝试也没有明显的效果。要快速的获得关键词的排名,笔者认为最关键词的还是需要找对方法,才是一切的关键,否则再多的努力也是徒劳。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 783
    • SEO优化
    • 关键词排名
  • 通过时效性内容提高网站收录速度

    时效性内容收录

    通过时效性内容提高网站收录速度是一个不错的方法,但是你知道如何保护自己的原创内容不被别人抄袭还比你更快收录吗?一种提高内容收录及更新抓取速度的方法。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1847
    • 时效性内容收录
  • 新站突然排名突然消失的原因

    新站排名消失

    新站突然排名突然消失的原因?有一些建过站的站长可能会碰到这样的一种现象,就是自己刚刚建好的一个网站,经过自己努力好不容易有了点,甚至是很不错,但是突然某一天自己的网站竟然毫无征兆的排名全无,

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2475
    • 新站排名消失
  • 别再这么使用sitemap,可能正在毁掉你的站点

    sitemap,网站地图

    Sitemap(站点地图)本身是一个强大的工具。它以结构化的XML格式,清晰地列出网站上希望搜索引擎索引的所有重要页面链接。对于大型、结构复杂或新上线的网站,提交Sitemap能显著帮助搜索引擎更快地发现站点的内容。然而,任何工具都有其两面性。Sitemap这把“钥匙”,既能打开搜索引擎友好抓取的大门,也可能为不速之客大开方便之门。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 289
    • sitemap
    • 网站地图
  • 移动网页怎么快速排名

    移动排名优化

    移动网页怎么快速排名?从移动网站准备阶断、移动页面细节把握、搜索引擎工具这三方来讲下如何对于移动端的优化。为了让移动页面有较好的收录,在网站准备阶断就要进行考虑。首先,移动网站与pc网站一样,选择简短、易懂、注册年限较长的域名有利于搜索引擎收录。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1312
    • 移动排名优化
  • 关键词难易度评估方法

    关键词难度评估

    选好关键词是SEO优化的关键因素,关键词的质量可以决定搜索量、排名、以及转化等。关键词是网站和搜索引擎和用户三者衔接的桥梁。关键词的选择充满了奥秘,简单的讲我们需要考虑这个关键词的搜索量毕竟没有流量的关键词排名再高也没用,其次关键词的排名对于自己站点的难易程度,以及最关键的流量以及转化的平衡点的把握。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1016
    • 关键词难度评估
  • HillTop谷歌排名算法

    HillTop算法

    HillTop算法可以有效的屏蔽垃圾低质量外链,防止外链作弊。其实HillTop算法的指导思想和PageRank的是一致的,都是通过网页被链接的数量和质量来确定搜索结果的排序权重。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2508
    • HillTop算法
  • 百度移动适配状态说明

    移动适配状态

    百度移动适配状态说明,对于适配的状态成功失败原因的分析以及解决方案。当认为实际情况与您提交的情况相符时,才会对适配数据进行生效处理,这个校验时间大约为10天。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3683
    • 移动适配状态