巧用Robots避免蜘蛛黑洞

搜索引擎的蜘蛛黑洞指的是搜索引擎蜘蛛在抓取站点内容的时候出现了大量雷同内容的url,导致搜索引擎蜘蛛一直被困在无限的循环中,如黑洞一般。直接的结果就会导致消耗大量的抓取资源。

​对于站点来说,每天的抓取额度是有限的,尤其是对于抓取量偏低的站点,则应该更要重视蜘蛛黑洞的出现,要实现高质量内容的优先抓取。长期的蜘蛛黑洞对于站点的收录是非常不利的,轻则影响站点的收录,重则会导致搜索引擎引擎因为有价值内容抓取不到而调低抓取频次。

常见的蜘蛛黑洞

蜘蛛黑洞的主要特征,页面内容相似,或者蜘蛛抓取页面链接会继续进入相类似页面。通常出现在页面的搜索或者筛选页面。

搜索页面当搜索词相近的时候页面的内容是高度重复,而对于站点是无法控制用户不去搜索相似关键词。另外很多站点会有筛选的功能,比如列表页存在通过筛选条件去对页面内容进行筛选,这种情况是最糟糕的,页面内容是在相同的内容中取出不过相同结果的内容,并且url是相同的只是参数不一样。

# 举例有一个列表页面的链接是,内容是seo相关的
https://www.chateach.com/seo
# 当用户筛选,seo相关的算法
https://www.chateach.com/seo?type=seo算法
1
2
3
4

如上所示的,不管是搜索页面还是页面的筛选,对于相同的页面进行结果的筛选的时候本质上是同一个地址,只是后面的参数不同 ,而对于搜索引擎url带有不同的参数也是作为不同的url内容来抓去对待的。如果当这类页面足够多,搜索引擎便会抓取大量此类页面,抓取获得的内容基本都是相似的。

如何避免蜘蛛黑洞

解决蜘蛛黑洞问题很简单,只需要在robots.txt文件中配置,禁止抓取带有参数的页面就可以实现了,但在实际中部分的带有参数页面也是存在一定价值的,但是这个就需要人工去筛选处理下。

# 屏蔽所有搜索引擎对于动态页面的抓取
User-agent: *
Disallow: /*?*
1
2
3

robots更新
对于排除对于这部分动态参数页面的屏蔽,但我更推荐还是屏蔽所有动态参数页面,将有价值的页面人工筛选之后生成独立的页面,如果可以将有价值的搜索结果页面作为tag页面去实现,这个可以根据自己站点情况灵活处理。

配置好robots文件之后,一般需要等待1周左右的时间生效,对于百度搜索引擎,可以进入站长搜索资源平台刚更新robots加速​规则的生效。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seozhishi/975robots

相关文章

  • robots文件有什么用

    robots有什么作用

    robots文件作用对于SEO优化不可忽视给i,可以有效提高网站内容的质量减少重复收录,保护隐私数据不被抓取!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1890
    • robots有什么作用
  • robots文件里该不该加上sitemap地址

    robots里放sitemap

    robots文件里该不该加上sitemap地址,有种说法就是搜索引擎抓取一个网站首先会抓取robots文件,这样把sitemap地址写在robots文件里,这样搜索引擎可以地址直接的对网站地图进行抓取,可以加快链接收录的速度,真相并不是这样

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2686
    • robots里放sitemap
  • 巧用robots避免蜘蛛黑洞

    robots,蜘蛛黑洞

    今天我们来了解下什么是蜘蛛黑洞,黑洞大家应该有一定的了解,属于一种高质量高引力天体,包括光任何的物体都无法逃逸。蜘蛛黑洞既是蜘蛛进入之后无法再出来,对正常的抓取工作产生负面影响。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1594
    • robots
    • 蜘蛛黑洞
  • SEO优化必须掌握的robots文件协议

    robots,SEO优化

    robots文件使用来申明网站哪些内容允许搜索引擎抓取,哪些内容禁止搜索引抓取的;正确的设置robots可以提升搜索引擎对网站的抓取效率,同时避免不必要的内容被抓取展现。但在实际运用中很多站点没有正确的使用robots导致了一些问题,今天潘某人SEO就为大家揭秘下robots的注意点。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1059
    • robots
    • SEO优化
  • robots协议不生效怎么处理

    robots

    为什么明明已经设正确设置的robots的屏蔽规则,但是就是不生效导致不该收录的内容被收录了呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 885
    • robots
  • 如何屏蔽某些页面的抓取,但是让页面中链接正常抓取

    meta标签屏蔽页面抓取

    如何屏蔽某些页面的抓取,但是让页面中链接正常抓取,对于这种情况,使用meta标签来进行屏蔽页面的抓取,可以变得更加的有效。相比常用的robots文件屏蔽,或者nofollow标签屏蔽的实用性更加的广。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3365
    • meta标签屏蔽页面抓取
  • 通过时效性内容提高网站收录速度

    时效性内容收录

    通过时效性内容提高网站收录速度是一个不错的方法,但是你知道如何保护自己的原创内容不被别人抄袭还比你更快收录吗?一种提高内容收录及更新抓取速度的方法。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1914
    • 时效性内容收录
  • 死链的正确处理方式,自动化提交,超详细全面教程!

    死链提交,搜索引擎,蜘蛛

    死链提交是SEO优化中常见的一环,但是你处理死链的方式真的正确吗?分享一份详尽的死链处理方案教程。及如何实现全自动死链提交。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1380
    • 死链提交
    • 搜索引擎
    • 蜘蛛
  • 你分享的链接泄露隐私了吗?

    跟踪链接,隐私

    今天这个话题看似和SEO没啥关系,那就耐心看到最后就有了,先回归正题大家有没有意识到自己平时分享的链接会泄漏隐私吗?大家平时是不是会分享一些歌曲、一些短视频的链接及各种社交app应用的链接给微信好友或者是分享到朋友圈,当然分享到其它地方也是如此,只要你分享了这些链接你都将面临有隐私泄漏的可能。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2634
    • 跟踪链接
    • 隐私
  • SEO优化应该注重哪些方面

    SEO优化市场

    SEO优化应该注重哪些方面?如今上网设备中,移动设备的占比越来越高,因此未来SEO优化会越来越偏向注重移动端的优化,对于站长们的要求更高,移动端的复杂性远远的高于PC端。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1234
    • SEO优化市场
  • PageRank排名算法

    PageRank算法

    PageRank排名算法,是一种由根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一。在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2725
    • PageRank算法
  • 百度快照对排名的影响

    快照排名的关系

    百度快照是搜索引擎在抓取页面时候,保留的一份纯文本文档。就是当网站无法访问的时候,访客可以通过快照了解页面的基本的内容;或者说你当前的网络环境很差的时候,因为百度快照是一个纯文本内容,你可以在网络速度极慢的时候还是可以顺利的打开快照页面。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1412
    • 快照排名的关系
  • 低质量网页的特征,你中了几条?

    内容质量

    对于seo优化越来越注重网页的内容的质量,想要获得理想的优化效果,提升网页的质量就变得非常的重要,不同的搜索引擎对于内容质量的判定上会有细微的差别,但是整体上大同小异,今天以百度搜索引擎为例分析下要如何做好网页的质量,要如何避免低质量页面出现。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1162
    • 内容质量
  • 百度索引量变化追查投诉方法

    百度索引量

    当百度索引量发生大幅度下跌时,如何进行原因的筛选来确定是正常波动,还是异常波动,及索引量下跌原因的排查方法及解决方案。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1381
    • 百度索引量
  • 为什么网站关键词排名在第二页上去不

    排名怎么计算的,排名提升的原理,第二页的关键词如何提升排名

    为什么网站关键词排名在第二页上去不,这种情况一般是网站内容质量度不够,那么后续的SEO优化方向就要去提升站点的内容质量。揭秘排名计算的方式

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2336
    • 排名怎么计算的
    • 排名提升的原理
    • 第二页的关键词如何提升排名
  • CDN防止网站被黑攻击

    CDN,网站被黑

    CDN的可以有效的隐藏网站的真实的IP地址,用户访问到的是离自己最近的CDN服务器;不仅仅加快了全球各地用户的访问速度体验,同时因为IP的隐藏,加大了攻击者访问到真实地址的难度,另一方学会如何设置好服务器的安全组,也可以有效防止网站被黑。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1145
    • CDN
    • 网站被黑
  • AI搜索会替代搜索引擎吗?

    AI搜索,搜索引擎,seo

    各大搜索引擎公司确实在积极研发并推出基于人工智能(AI)的搜索功能,不仅能提供更准确、更个性化的搜索结果,还能够理解复杂的查询语句,甚至提供对话式的互动,使得搜索过程更加自然和高效,未来AI搜索会替代掉搜索引擎呢!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1281
    • AI搜索
    • 搜索引擎
    • seo