巧用Robots避免蜘蛛黑洞

搜索引擎的蜘蛛黑洞指的是搜索引擎蜘蛛在抓取站点内容的时候出现了大量雷同内容的url,导致搜索引擎蜘蛛一直被困在无限的循环中,如黑洞一般。直接的结果就会导致消耗大量的抓取资源。

​对于站点来说,每天的抓取额度是有限的,尤其是对于抓取量偏低的站点,则应该更要重视蜘蛛黑洞的出现,要实现高质量内容的优先抓取。长期的蜘蛛黑洞对于站点的收录是非常不利的,轻则影响站点的收录,重则会导致搜索引擎引擎因为有价值内容抓取不到而调低抓取频次。

常见的蜘蛛黑洞

蜘蛛黑洞的主要特征,页面内容相似,或者蜘蛛抓取页面链接会继续进入相类似页面。通常出现在页面的搜索或者筛选页面。

搜索页面当搜索词相近的时候页面的内容是高度重复,而对于站点是无法控制用户不去搜索相似关键词。另外很多站点会有筛选的功能,比如列表页存在通过筛选条件去对页面内容进行筛选,这种情况是最糟糕的,页面内容是在相同的内容中取出不过相同结果的内容,并且url是相同的只是参数不一样。

# 举例有一个列表页面的链接是,内容是seo相关的
https://www.chateach.com/seo
# 当用户筛选,seo相关的算法
https://www.chateach.com/seo?type=seo算法
1
2
3
4

如上所示的,不管是搜索页面还是页面的筛选,对于相同的页面进行结果的筛选的时候本质上是同一个地址,只是后面的参数不同 ,而对于搜索引擎url带有不同的参数也是作为不同的url内容来抓去对待的。如果当这类页面足够多,搜索引擎便会抓取大量此类页面,抓取获得的内容基本都是相似的。

如何避免蜘蛛黑洞

解决蜘蛛黑洞问题很简单,只需要在robots.txt文件中配置,禁止抓取带有参数的页面就可以实现了,但在实际中部分的带有参数页面也是存在一定价值的,但是这个就需要人工去筛选处理下。

# 屏蔽所有搜索引擎对于动态页面的抓取
User-agent: *
Disallow: /*?*
1
2
3

robots更新
对于排除对于这部分动态参数页面的屏蔽,但我更推荐还是屏蔽所有动态参数页面,将有价值的页面人工筛选之后生成独立的页面,如果可以将有价值的搜索结果页面作为tag页面去实现,这个可以根据自己站点情况灵活处理。

配置好robots文件之后,一般需要等待1周左右的时间生效,对于百度搜索引擎,可以进入站长搜索资源平台刚更新robots加速​规则的生效。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seozhishi/975robots

相关文章

  • robots文件有什么用

    robots有什么作用

    robots文件作用对于SEO优化不可忽视给i,可以有效提高网站内容的质量减少重复收录,保护隐私数据不被抓取!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1790
    • robots有什么作用
  • robots文件里该不该加上sitemap地址

    robots里放sitemap

    robots文件里该不该加上sitemap地址,有种说法就是搜索引擎抓取一个网站首先会抓取robots文件,这样把sitemap地址写在robots文件里,这样搜索引擎可以地址直接的对网站地图进行抓取,可以加快链接收录的速度,真相并不是这样

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2504
    • robots里放sitemap
  • 巧用robots避免蜘蛛黑洞

    robots,蜘蛛黑洞

    今天我们来了解下什么是蜘蛛黑洞,黑洞大家应该有一定的了解,属于一种高质量高引力天体,包括光任何的物体都无法逃逸。蜘蛛黑洞既是蜘蛛进入之后无法再出来,对正常的抓取工作产生负面影响。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1501
    • robots
    • 蜘蛛黑洞
  • SEO优化必须掌握的robots文件协议

    robots,SEO优化

    robots文件使用来申明网站哪些内容允许搜索引擎抓取,哪些内容禁止搜索引抓取的;正确的设置robots可以提升搜索引擎对网站的抓取效率,同时避免不必要的内容被抓取展现。但在实际运用中很多站点没有正确的使用robots导致了一些问题,今天潘某人SEO就为大家揭秘下robots的注意点。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 966
    • robots
    • SEO优化
  • robots协议不生效怎么处理

    robots

    为什么明明已经设正确设置的robots的屏蔽规则,但是就是不生效导致不该收录的内容被收录了呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 784
    • robots
  • 如何屏蔽某些页面的抓取,但是让页面中链接正常抓取

    meta标签屏蔽页面抓取

    如何屏蔽某些页面的抓取,但是让页面中链接正常抓取,对于这种情况,使用meta标签来进行屏蔽页面的抓取,可以变得更加的有效。相比常用的robots文件屏蔽,或者nofollow标签屏蔽的实用性更加的广。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3273
    • meta标签屏蔽页面抓取
  • 关注网站抓取频率的重要性

    网站抓取频率

    关注网站抓取频率的重要性,每天都会有数以万计的url被搜素引擎抓取,而形成的相互的链接,而构成了我们所看到的互联网,对于网站优化来讲,就是网站抓取频率,那网站抓取频率对seo有哪些重要的意义呢?下面我们来看看为什么要关注网站抓取频率。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2328
    • 网站抓取频率
  • 烽火算法持续升级,控制回退按钮失效问题

    烽火算法持续,退按钮失效

    烽火算法解析,2021年8月百度搜索引擎对于烽火算法进行了升级,此次升级主要是打击移动端退回按钮失效问题。上一个版本的烽火算法2.0更新于2017年2月,严惩“窃取用户数据”和“恶意劫持”的行为:未经用户允许恶意窃取用户手机号码等隐私数据的行为和恶意劫持百度流量的行为。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1368
    • 烽火算法持续
    • 退按钮失效
  • 如何一本正经的胡说八道,而你深信不疑

    确认偏误,认知闭合

    人们面对未知内容时选择相信的现象,是一个涉及心理学、社会学和认知科学的复杂议题。认知闭合需求、情感补偿机制、确认偏误、群体极化效应等诸多因素,有趣的可以进一步的去了解。那么我们又如如何抵御,避免自身陷入其中。做一个聪明人,有判断力的能人,自己可以不是那个胡说八道的人,但是决不能成为一本正经胡说八道的受众群体。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 4957
    • 确认偏误
    • 认知闭合
  • SEO优化还值得做吗

    SEO优化

    SEO优化还值得做吗?可以说SEO优化越来越难做,对于企业优化的成本越来越多,对于个人站长,通过网站赚钱的可能性也越来越小。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1015
    • SEO优化
  • 友情链接交换规则

    友情链接

    友情链接本质上就是外链,但是与外链不同它是双向的,两站点互相导出;那么在友情链接交换中我们需要注意什么呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1352
    • 友情链接
  • 如何用代码批量查询收录

    批量收录查询代码

    如何用代码批量查询百度360搜狗收录,对于SEO优化来说收录是大家比较关注的,一般使用的查询方法是拿页面的URL或者标题去对应的搜索引擎手动查询收录,但是存在这局限性,今天就来分享一下如何通过代码实现网站收录查询。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1635
    • 批量收录查询代码
  • SEO内容优化劣迹行为你有吗

    SEO内容优化

    不管你的站点是否需要SEO优化,都需要的是优质的内容,得用户者得流量。而在实际的运行中却十分不理想,普遍的存在着垃圾制造的行为。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 898
    • SEO内容优化
  • AI大模型或将走上搜索引擎的老路

    AI大模,搜索引擎

    AI大模型以其强大的生成能力和广泛的应用场景,已逐步的融入到大家的生活中。AI大模的数据污染与低质量内容问题或将成为一个严峻的问题,AI大模型或将走上搜索引擎的老路。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 5009
    • AI大模
    • 搜索引擎
  • 网站排名优化贵在长期稳定坚持

    网站排名优化思路

    如果一个网站想要稳定的流量,那么不是靠一朝一夕可以迅速做到的,因此网站排名优化的重点在于长期稳定坚持的输出高质量的内容的,一个量变到质变的过程。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1478
    • 网站排名优化思路
  • 如何防止假蜘蛛抓取内容

    假蜘蛛,防采集,原创保护

    如何让网站自动识别蜘蛛的真假,如何自动的屏蔽假蜘蛛抓取网站内容,从而更好的保护网站的原创内容呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2191
    • 假蜘蛛
    • 防采集
    • 原创保护
  • SEO已死,是真相还是忽悠?

    SEO已死

    SEO的环境已经经历了巨大的变革,尤其是在短视频内容和AI技术迅速发展的背景下。来越多的用户倾向于通过短视频平台来获取信息。这改变了传统的文本搜索模式。随着AI的发展,搜索引擎能够提供更加精确的答案,有时甚至不需要用户点击进入网站。于是,一些人得出结论:“SEO已死”,但真相真的是如此吗?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 152
    • SEO已死
  • 低质量网页的特征,你中了几条?

    内容质量

    对于seo优化越来越注重网页的内容的质量,想要获得理想的优化效果,提升网页的质量就变得非常的重要,不同的搜索引擎对于内容质量的判定上会有细微的差别,但是整体上大同小异,今天以百度搜索引擎为例分析下要如何做好网页的质量,要如何避免低质量页面出现。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 882
    • 内容质量