如何鉴别真假蜘蛛,代码自动化

相信所有站长都很痛恨假蜘蛛,我们这里说的蜘蛛是指搜索引擎爬虫蜘蛛。在我们观察网站日志的时候我们会发现有一些蜘蛛很有迷惑性,跟真蜘蛛一模一样,根本无法直接通过肉眼区分出来。

鉴别真假蜘蛛的方法

想要准确无误的判定蜘蛛的真实性,那么只有一个途径就是放过蜘蛛的IP反查其解析的域名,具体的方法参照真假蜘蛛ip识别。简单的讲就是我们可以通过电脑的cmd等工具使用“nslookup + ip”,看返回的结果是不是对于搜索引擎的域名。

因为访问的user-agent是可以修改的,但是这个ip与域名之间的解析,要么是域名所有者或者是劫持域名解析。对于搜索引擎的来说,通过这个方式的可能性为零,所以我们判定蜘蛛的真实性,只能使用这个方法。

假蜘蛛的目的

那么这些假蜘蛛的目的是什么,大多数就是为了采集你网站的内容、或者是对于网站进行攻击分析,伪装成搜索引擎蜘蛛可以获取站点的信任,降低被发现的可能性。如果你经常观察网站日志是很好发现的,搜索搜索引擎不会去抓取内容资源之外的链接。同时搜索引擎不会集中时间段去大量抓取内容,也不会去有顺序的挨个去抓取页面内容。

如何鉴别真假蜘蛛

虽然通过日志可以辨别出,但是我们不可能去时时刻刻监控网站日志;对于一些抓取内容的而已蜘蛛我们发现的时候,内容已经被爬了去了再去屏蔽意义也不是很大了,那么有什么办法自动化处理这些假蜘蛛呢?

代码自动化鉴别假蜘蛛

分享一个我觉得不错的方法,那就是在网站后端请求的时候对于访问客户端的身份做一个鉴别,对于存在问题的ip立刻进行一个屏蔽处理,就可以尽可能的保护我们的原创内容不被别人抄袭了去。

第一步就是鉴别,访问者的请求头也就是user-agent。如果请求头是蜘蛛名,那么我们就要判断其真实性,基本的原理就是反查ip。比如在php中我们无法使用nslookup命令去进行反查。但是我们可以使用gethostbyaddr()函数可以实现nslookup同样的功能。

第二步就是确认蜘蛛真实性,我们把gethostbyaddr()函数的返回值,去匹配下各个蜘蛛域名;就可以确认真的ip是不是真的搜索引擎爬虫。

第三步屏蔽处理与放通,对于存在问题的蜘蛛我们可以直接屏蔽当前IP访问网站的权限,同时你也可以直接返回一封警告信给它,估计会被你震惊到的。对于是真实蜘蛛的IP我们添加为白名单,下次直接放通不再做鉴别。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seozhishi/657

相关文章

  • SEO如何屏蔽蜘蛛抓取,你掌握了哪些多少种!

    蜘蛛

    在SEO优化中有很多情况需要对蜘蛛进行屏蔽,那么作为一个SEO就必须知道屏蔽搜索引擎蜘蛛的常见方案,以及结合实践采用正确的方法来屏蔽蜘蛛。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 916
    • 蜘蛛
  • 收下这份防爬虫的策略

    爬虫

    对于防爬并没有一劳永逸的方法,只要内容是可以被访问的,那么就有可能被爬取;是否能勾防住,最终就是一场攻防的战斗,看哪一方技术更胜一筹。今天潘某人SEO突然灵光乍现,突然想到一个防爬虫的方案,在这里分享给大家,当然也不是专业做这个的,有不妥之处欢迎大家指正,铺垫比较长一定看到最后,希望可以帮助到你。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1021
    • 爬虫
  • DNS对于SEO至关重要

    DNS服务器,seo

    如果你错误的选择dns服务器,那么对于站点的SEO优化是致命的,轻则影响SEO效果,严重的甚至站点会被搜索引擎所屏蔽。因此重视dns服务器,正确的选择对于seo优化是必要的也是重要的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1114
    • DNS服务器
    • seo
  • robots协议不生效怎么处理

    robots

    为什么明明已经设正确设置的robots的屏蔽规则,但是就是不生效导致不该收录的内容被收录了呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 966
    • robots
  • 网站被镜像,对网站有什么影响,如何应对?

    网站被镜像,seo优化

    网站被镜像,对网站有什么影响,分享一个有用的识别镜像行为和屏蔽镜像行为的方案。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1065
    • 网站被镜像
    • seo优化
  • IP地址段表达方式

    IP地址,IP区间段,ip表达式

    ip/8/16/24,IP大家在熟悉不过了,但是大家真的了解IP吗?如何表示一段区间的IP端呢?在网站优化的时候IP的屏蔽是经常需要做的一件事,如果需要屏蔽的IP都在一个段区间内,你还在一个个屏蔽吗,有没有一种快速屏蔽一段IP的方法吗。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3340
    • IP地址
    • IP区间段
    • ip表达式
  • 如何防止网站被黑

    防止网站被黑.防火墙配置,出入站规则

    合理的配置服务器防火墙的出入站规则,可以有效的屏蔽恶意访问,从而提升网站的安全性防止网站被黑,望着那别攻击很有可能优化规则前功尽弃。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1206
    • 防止网站被黑.防火墙配置
    • 出入站规则
  • 百度爬虫工作原理

    百度蜘蛛原理,抓取频次

    百度爬虫是如何工作的,如何才能提升网站的抓取频次呢?抓取频次的影响因素有哪些?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1528
    • 百度蜘蛛原理
    • 抓取频次
  • 如何防止假蜘蛛抓取内容

    假蜘蛛,防采集,原创保护

    如何让网站自动识别蜘蛛的真假,如何自动的屏蔽假蜘蛛抓取网站内容,从而更好的保护网站的原创内容呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2519
    • 假蜘蛛
    • 防采集
    • 原创保护
  • 原创内容如何保护,防止被抄袭爬取

    原创保护,防止抄袭爬取

    如今搜索引发展趋势是内容为王,想要获得好的排名那么优质得内容是必不可少的。面对无数的抄袭者我们如何保护自己不被抄袭、页面被复制、防止爬虫爬取。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1515
    • 原创保护
    • 防止抄袭爬取
  • 如何防止网站被爬虫恶意抓取

    原创保护,爬虫屏蔽

    对于SEO优化来说最讨厌的就是抄袭行为,而爬虫技术则是抄袭手段的升级版,通过一个规则去全网爬取内容进行发布。将抄袭实现了自动化,各个站点面对这种行为也是无可奈何。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1725
    • 原创保护
    • 爬虫屏蔽
  • 如何修改浏览器User-Agent

    User-Agent

    演示如何修改User-Agent,通过修改HTTP请求头,我们可以实现浏览不同设备下的网站的展示内容。如何通过修改浏览器User-Agent去访问网页,学会修改浏览器user-agent之后,就可以访问站点的爬虫页。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2417
    • User-Agent
  • HillTop谷歌排名算法

    HillTop算法

    HillTop算法可以有效的屏蔽垃圾低质量外链,防止外链作弊。其实HillTop算法的指导思想和PageRank的是一致的,都是通过网页被链接的数量和质量来确定搜索结果的排序权重。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2641
    • HillTop算法
  • 搜索引擎蜘蛛爬虫名大全

    搜索蜘蛛大全

    对于seo们清楚掌握主流搜索引擎的爬虫名称十分的关键,掌握各大搜索引擎蜘蛛爬虫,对我们开展网站SEO优化具有挺大作用;作者搜集了各大搜索引擎的蜘蛛爬虫UA,便于你需要时查看。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2288
    • 搜索蜘蛛大全
  • 如何禁止网页内容被复制

    如何禁止网页内容被复制

    现在SEO优化鼓励内容为王,也就是鼓励大家原创。那么问题来了,如果当我们在原创的时候自己的内容却在被别人抄袭,是不是很气人,今天教大家如何屏蔽网页内容的复制。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2211
    • 如何禁止网页内容被复制
  • 如何屏蔽某些页面的抓取,但是让页面中链接正常抓取

    meta标签屏蔽页面抓取

    如何屏蔽某些页面的抓取,但是让页面中链接正常抓取,对于这种情况,使用meta标签来进行屏蔽页面的抓取,可以变得更加的有效。相比常用的robots文件屏蔽,或者nofollow标签屏蔽的实用性更加的广。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3442
    • meta标签屏蔽页面抓取
  • 如果你觉得AI对你帮助非常大,那你一定要看完这篇文章

    AI认知吝啬鬼

    现在大家干活、写东西,遇到不懂的,第一反应就是问AI。确实快,几秒钟出结果,省时省力。但你想过没有,如果连思考都省了,最后剩下的是啥?这篇文不打算妖魔化AI,毕竟它真是个好工具。但咱得聊点扎心的:当你习惯了“喂到嘴边”的答案,你的判断力还在吗?为什么很多人觉得AI全对?咱们今天就来扒一扒,怎么在享受便利的同时,别让自己变成只会点头的“接收器”。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 44
    • AI认知吝啬鬼
  • 网站URL后缀:SEO优化的关键细节,还是无效焦虑?

    URL后缀

    网站链接后面到底要不要带“.html”等后缀?这问题估计很多刚接触建站的朋友都纠结过,今天咱就站在搜索引擎优化和实际运营的角度,分析下这个问题。先给个定心丸:对于现在的搜索引擎来说,带不带.html等后缀,对排名的影响直接可以忽略。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 61
    • URL后缀
  • 给网站加上结构化数据,让搜索引擎“爱上你”

    结构化数据,JSONLD

    很多做SEO的朋友,每天盯着关键词排名,发外链、写文章,忙得团团转,结果流量还是上不去。其实,你可能忽略了搜索引擎最需要的东西——“理解”。结构化数据就是给网页贴个“身份证”,告诉搜索引擎你的网站到底是干啥的、作者是准、啥时候更新的。别小看这几行代码,它能直接决定你的网页在搜索结果里长啥样,甚至决定了AI能不能抓取到你。这篇文章,潘某人SEO就带大家把这层窗户纸捅破,看看怎么用技术流手段,低成本撬动大流量。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 86
    • 结构化数据
    • JSONLD