如何防止网站被爬虫恶意抓取

对于SEO优化来说最讨厌的就是抄袭行为,而爬虫技术则是抄袭手段的升级版,通过一个规则去全网爬取内容进行发布。将抄袭实现了自动化,各个站点面对这种行为也是无可奈何。

防爬虫的几种方法

User-Agent屏蔽

User-Agent也就是http请求头,当客户端访问的时候,服务器就可以接收到访问者的User-Agent。我们可以通过设置屏蔽常见的爬虫的User-Agent名,比如python、robots等。

但是这种方法的弊端很明显首先爬虫的User-Agent可以说是各式各样,只能发现了去屏蔽。并且如果是处于恶意爬取为目的的,基本上会把User-Agent伪装成浏览器,很难去发现。

IP访问频次限制

通过检测ip请求的频次来限制访问,当爬虫进行爬取的时候会在短时间内,在同一个IP下频繁抓取不同的页面。我们可以设置一个阈值,同一个IP在多少时间内访问超过多少个页面就屏蔽当前IP或者通过验证码来验证是否是正常访问。

这种方法的弊端就是,如果采用多个IP并且降低抓取的速度就可以绕过这个防御机制。

机智应对爬虫

想要高准确度识别人和爬虫就要首先找到两者最大的差异;一个明显的差异就是人永远只会去访问眼睛能够看见的东西,而爬虫只要去源码里有的网址都会去访问。

因此我们可以使用一个img标签实现精准的爬虫识别,<a href="防御地址"><img src="图片地址" style="height:1px;width:1px;"></a>。我们可以使用一个1个像素点图片,放在导航栏或者网站页面,颜色就融于这个环境,并且放在角落边;这样人眼首先看不到这张图片,其次非常的小根本不可能点击到<a>标签,不会触发防御地址。

爬虫恶意抓取

然而爬虫则会去抓取页面的所有链接,当然我们不一定必须使用img标签,我们只要放下这种类似的陷阱,一但某个ip触发这个防御地址,就直接秒封当前ip。

特点注意事项

搜索引擎蜘蛛的放开,搜索引擎蜘蛛本质上也是爬虫,用上述的方法的时候都要谨慎的处理。需要做好搜索引擎蜘蛛的鉴别,千万不要把搜索蜘蛛也屏蔽了。

我们可以通过设置白名单,将允许访问的蜘蛛的ip端放入白名单不做屏蔽,千万不要通过User-Agent中蜘蛛的UA名来识别,太容易伪造。不过这种方法的问题就是如果搜索引擎增加新的蜘蛛IP段的时候会误伤。

因此对于,触发机制的User-Agent是搜索引擎蜘蛛的时候,我们需要去执行nslookup反查这个ip看它解析到哪里来鉴别是其真实性。

如果站点的规模很大,有一定知名度实力,对于造成了一个的损失。那么就直接保留日志证据,请对方吃牢饭。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seozhishi/629

相关文章

  • 内容防抓取原创保护的方法

    原创保护,防抓取,防采集

    ​站点的内容经常被恶意采集爬取,辛辛苦苦码的原创内容被人轻而易举的强取豪夺,被采集可以说是另站长们最痛疼的事情之一了,今天潘某人SEO就与大家分享若干方法,期望可以对大家有帮助。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1061
    • 原创保护
    • 防抓取
    • 防采集
  • SEO如何屏蔽蜘蛛抓取,你掌握了哪些多少种!

    蜘蛛

    在SEO优化中有很多情况需要对蜘蛛进行屏蔽,那么作为一个SEO就必须知道屏蔽搜索引擎蜘蛛的常见方案,以及结合实践采用正确的方法来屏蔽蜘蛛。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 909
    • 蜘蛛
  • 收下这份防爬虫的策略

    爬虫

    对于防爬并没有一劳永逸的方法,只要内容是可以被访问的,那么就有可能被爬取;是否能勾防住,最终就是一场攻防的战斗,看哪一方技术更胜一筹。今天潘某人SEO突然灵光乍现,突然想到一个防爬虫的方案,在这里分享给大家,当然也不是专业做这个的,有不妥之处欢迎大家指正,铺垫比较长一定看到最后,希望可以帮助到你。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1017
    • 爬虫
  • DNS对于SEO至关重要

    DNS服务器,seo

    如果你错误的选择dns服务器,那么对于站点的SEO优化是致命的,轻则影响SEO效果,严重的甚至站点会被搜索引擎所屏蔽。因此重视dns服务器,正确的选择对于seo优化是必要的也是重要的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1110
    • DNS服务器
    • seo
  • robots协议不生效怎么处理

    robots

    为什么明明已经设正确设置的robots的屏蔽规则,但是就是不生效导致不该收录的内容被收录了呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 963
    • robots
  • 网站被镜像,对网站有什么影响,如何应对?

    网站被镜像,seo优化

    网站被镜像,对网站有什么影响,分享一个有用的识别镜像行为和屏蔽镜像行为的方案。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1061
    • 网站被镜像
    • seo优化
  • IP地址段表达方式

    IP地址,IP区间段,ip表达式

    ip/8/16/24,IP大家在熟悉不过了,但是大家真的了解IP吗?如何表示一段区间的IP端呢?在网站优化的时候IP的屏蔽是经常需要做的一件事,如果需要屏蔽的IP都在一个段区间内,你还在一个个屏蔽吗,有没有一种快速屏蔽一段IP的方法吗。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3333
    • IP地址
    • IP区间段
    • ip表达式
  • 如何防止网站被黑

    防止网站被黑.防火墙配置,出入站规则

    合理的配置服务器防火墙的出入站规则,可以有效的屏蔽恶意访问,从而提升网站的安全性防止网站被黑,望着那别攻击很有可能优化规则前功尽弃。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1202
    • 防止网站被黑.防火墙配置
    • 出入站规则
  • 百度爬虫工作原理

    百度蜘蛛原理,抓取频次

    百度爬虫是如何工作的,如何才能提升网站的抓取频次呢?抓取频次的影响因素有哪些?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1526
    • 百度蜘蛛原理
    • 抓取频次
  • 如何防止假蜘蛛抓取内容

    假蜘蛛,防采集,原创保护

    如何让网站自动识别蜘蛛的真假,如何自动的屏蔽假蜘蛛抓取网站内容,从而更好的保护网站的原创内容呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2509
    • 假蜘蛛
    • 防采集
    • 原创保护
  • 如何鉴别真假蜘蛛,代码自动化

    蜘蛛鉴别,假爬虫屏蔽

    如何使用代码自动化的识别蜘蛛的真实性,防止被假蜘蛛抓取网站内容。分享一个通过代码自动化鉴别屏蔽加搜索引擎爬虫的思路。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1745
    • 蜘蛛鉴别
    • 假爬虫屏蔽
  • 原创内容如何保护,防止被抄袭爬取

    原创保护,防止抄袭爬取

    如今搜索引发展趋势是内容为王,想要获得好的排名那么优质得内容是必不可少的。面对无数的抄袭者我们如何保护自己不被抄袭、页面被复制、防止爬虫爬取。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1508
    • 原创保护
    • 防止抄袭爬取
  • 如何修改浏览器User-Agent

    User-Agent

    演示如何修改User-Agent,通过修改HTTP请求头,我们可以实现浏览不同设备下的网站的展示内容。如何通过修改浏览器User-Agent去访问网页,学会修改浏览器user-agent之后,就可以访问站点的爬虫页。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2415
    • User-Agent
  • HillTop谷歌排名算法

    HillTop算法

    HillTop算法可以有效的屏蔽垃圾低质量外链,防止外链作弊。其实HillTop算法的指导思想和PageRank的是一致的,都是通过网页被链接的数量和质量来确定搜索结果的排序权重。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2640
    • HillTop算法
  • 搜索引擎蜘蛛爬虫名大全

    搜索蜘蛛大全

    对于seo们清楚掌握主流搜索引擎的爬虫名称十分的关键,掌握各大搜索引擎蜘蛛爬虫,对我们开展网站SEO优化具有挺大作用;作者搜集了各大搜索引擎的蜘蛛爬虫UA,便于你需要时查看。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2280
    • 搜索蜘蛛大全
  • 如何禁止网页内容被复制

    如何禁止网页内容被复制

    现在SEO优化鼓励内容为王,也就是鼓励大家原创。那么问题来了,如果当我们在原创的时候自己的内容却在被别人抄袭,是不是很气人,今天教大家如何屏蔽网页内容的复制。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2202
    • 如何禁止网页内容被复制
  • 如何屏蔽某些页面的抓取,但是让页面中链接正常抓取

    meta标签屏蔽页面抓取

    如何屏蔽某些页面的抓取,但是让页面中链接正常抓取,对于这种情况,使用meta标签来进行屏蔽页面的抓取,可以变得更加的有效。相比常用的robots文件屏蔽,或者nofollow标签屏蔽的实用性更加的广。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3440
    • meta标签屏蔽页面抓取
  • 如果你觉得AI对你帮助非常大,那你一定要看完这篇文章

    AI认知吝啬鬼

    现在大家干活、写东西,遇到不懂的,第一反应就是问AI。确实快,几秒钟出结果,省时省力。但你想过没有,如果连思考都省了,最后剩下的是啥?这篇文不打算妖魔化AI,毕竟它真是个好工具。但咱得聊点扎心的:当你习惯了“喂到嘴边”的答案,你的判断力还在吗?为什么很多人觉得AI全对?咱们今天就来扒一扒,怎么在享受便利的同时,别让自己变成只会点头的“接收器”。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 32
    • AI认知吝啬鬼
  • 网站URL后缀:SEO优化的关键细节,还是无效焦虑?

    URL后缀

    网站链接后面到底要不要带“.html”等后缀?这问题估计很多刚接触建站的朋友都纠结过,今天咱就站在搜索引擎优化和实际运营的角度,分析下这个问题。先给个定心丸:对于现在的搜索引擎来说,带不带.html等后缀,对排名的影响直接可以忽略。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 52
    • URL后缀