如何鉴别真假蜘蛛,代码自动化

相信所有站长都很痛恨假蜘蛛,我们这里说的蜘蛛是指搜索引擎爬虫蜘蛛。在我们观察网站日志的时候我们会发现有一些蜘蛛很有迷惑性,跟真蜘蛛一模一样,根本无法直接通过肉眼区分出来。

鉴别真假蜘蛛的方法

想要准确无误的判定蜘蛛的真实性,那么只有一个途径就是放过蜘蛛的IP反查其解析的域名,具体的方法参照真假蜘蛛ip识别。简单的讲就是我们可以通过电脑的cmd等工具使用“nslookup + ip”,看返回的结果是不是对于搜索引擎的域名。

因为访问的user-agent是可以修改的,但是这个ip与域名之间的解析,要么是域名所有者或者是劫持域名解析。对于搜索引擎的来说,通过这个方式的可能性为零,所以我们判定蜘蛛的真实性,只能使用这个方法。

假蜘蛛的目的

那么这些假蜘蛛的目的是什么,大多数就是为了采集你网站的内容、或者是对于网站进行攻击分析,伪装成搜索引擎蜘蛛可以获取站点的信任,降低被发现的可能性。如果你经常观察网站日志是很好发现的,搜索搜索引擎不会去抓取内容资源之外的链接。同时搜索引擎不会集中时间段去大量抓取内容,也不会去有顺序的挨个去抓取页面内容。

如何鉴别真假蜘蛛

虽然通过日志可以辨别出,但是我们不可能去时时刻刻监控网站日志;对于一些抓取内容的而已蜘蛛我们发现的时候,内容已经被爬了去了再去屏蔽意义也不是很大了,那么有什么办法自动化处理这些假蜘蛛呢?

代码自动化鉴别假蜘蛛

分享一个我觉得不错的方法,那就是在网站后端请求的时候对于访问客户端的身份做一个鉴别,对于存在问题的ip立刻进行一个屏蔽处理,就可以尽可能的保护我们的原创内容不被别人抄袭了去。

第一步就是鉴别,访问者的请求头也就是user-agent。如果请求头是蜘蛛名,那么我们就要判断其真实性,基本的原理就是反查ip。比如在php中我们无法使用nslookup命令去进行反查。但是我们可以使用gethostbyaddr()函数可以实现nslookup同样的功能。

第二步就是确认蜘蛛真实性,我们把gethostbyaddr()函数的返回值,去匹配下各个蜘蛛域名;就可以确认真的ip是不是真的搜索引擎爬虫。

第三步屏蔽处理与放通,对于存在问题的蜘蛛我们可以直接屏蔽当前IP访问网站的权限,同时你也可以直接返回一封警告信给它,估计会被你震惊到的。对于是真实蜘蛛的IP我们添加为白名单,下次直接放通不再做鉴别。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seozhishi/657

相关文章

  • 为什么网站有收录却没有流量?

    收录,流量

    相信很多人对于网站有收录但是却没有流量,甚至一些站点的整体收录不错,但是网站的流量却依然很差,今天潘某人SEO为您来揭秘其中的缘由!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 773
    • 收录
    • 流量
  • 百度原创星火计划是什么

    星火计划

    百度原创星火计划(又称伪原创的算法)是在,百度搜索团队首次表示,正在设计一套较完善的原创识别算法,并提出了互联网生态的项目课题,是为了解决原创内容的搜索排名问题。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1767
    • 星火计划
  • 收下这份防爬虫的策略

    爬虫

    对于防爬并没有一劳永逸的方法,只要内容是可以被访问的,那么就有可能被爬取;是否能勾防住,最终就是一场攻防的战斗,看哪一方技术更胜一筹。今天潘某人SEO突然灵光乍现,突然想到一个防爬虫的方案,在这里分享给大家,当然也不是专业做这个的,有不妥之处欢迎大家指正,铺垫比较长一定看到最后,希望可以帮助到你。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 766
    • 爬虫
  • SEO优化做得好,一半功劳是“抄”来的?

    SEO优化

    你是不是也曾为SEO优化头疼不已?看着别人的网站排名飙升,自己的却纹丝不动,焦虑感油然而生。别急,今天潘某人SEO分享一个颠覆你认知的观点:SEO优化最快的成功方式,竟然是“抄袭借鉴”!借鉴成功者经验,相当于站在巨人的肩膀上,直接跳过无效努力,直奔结果。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 98
    • SEO优化
  • SEO站外优化的方法有哪些?

    seo站外优化

    SEO站外优化的方法有哪些?一个网站如果有比较好的内容,但是客户还是无法看到的话,那么就说明SEO优化没有达到理想的效果。我们做网站首先就是要让用户能够看到,这样才能带来更多的流量,最终实现建设网站的目的就是起到推广或者是营销的效果。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1305
    • seo站外优化
  • 新站被快速收录的秘诀

    新站快速收录的方法

    新站被快速收录的秘诀,如何让新站快速的收录。如果你能做到下面这些,你的网站就可能在12个小时内被收录。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1469
    • 新站快速收录的方法
  • 域名泛解析对SEO优化的影响

    SEO泛域名解析

    域名泛解析对SEO优化的影响?泛解析一般是指很多二级域名都可以去访问我们的主站,搜索引擎一旦爬取这些域名,肯定是会现大量重复内容,这是毫无疑问;重复内容过多对网站优化肯定是不好的,因为可以做一些设置。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2783
    • SEO泛域名解析
  • flash、ifream、js、ajax不利于抓取收录吗

    ajax,flash,ifream,js,不利于抓取,抓取不到

    flash、ifream、js、ajax搜索引擎抓取不到,所以网站优化的时候就要去避免使用这些代码,这种想法是错误的,片面的,只要合理使用也可以帮助优化!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1686
    • ajax
    • flash
    • ifream
    • js
    • 不利于抓取
    • 抓取不到
  • seo优化必须知道的网站路径结构重点

    seo优化,网站路径,采集

    网站路径是最容易被站长们忽略的关键点,网站路径对于网站的结构有着关键的影响,并且对于seo优化起到了深远的影响。今天给大家分享下,网站路径与seo之间的关系,我们应该如何处理正确的处理网站路径。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 977
    • seo优化
    • 网站路径
    • 采集
  • 网站优化哪个数据指标最重要?

    网站优化,seo数据

    资深SEO优化师可以说出一大堆影响SEO优化效果的因素。影响排名的因素不胜枚举,就比如百度搜索引擎的白皮书中就列举出来了很多影响排名的因素,那么在众多因素中,哪个因素最核心呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 991
    • 网站优化
    • seo数据
  • 【重要】搜索资源平台清退风险资源

    搜索资源平台,seo

    如果站点从事百度SEO优化,那么这条消息必看,避免对日常的优化工作产生影响,未及时处理将直接影响百度搜索资源平台的账户。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 895
    • 搜索资源平台
    • seo
  • 网站不收录的原因及如何处理应对

    收录

    网站不收录问题不管是新站还是老站都会面临的问题,那么当网站遇到收录问题的时候应该如何应对,如何找到问题所在呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 736
    • 收录
  • SEO站外优化怎么做

    SEO站外优化,站外推广

    SEO站外优化怎么做,SEO优化是离不开站外的优化工作,尤其是对于一些没有知名度,客户群体少的网站;这类站点如果不注重站点的曝光,那么原本先天不足的站点的流量增长就变得更加的困难。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 929
    • SEO站外优化
    • 站外推广
  • 什么是网站的抓取频次

    抓取频次,网站收录

    抓取频次是搜索引擎蜘蛛在单位时间内容访问网站的次数,比如在百度站长工具内容看到的抓取的频次都是按天进行统计的,那么数据中的抓取频次都是日抓取频次。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1371
    • 抓取频次
    • 网站收录
  • 百度下拉框是什么

    百度下拉框,下拉词

    什么是百度下拉框,不管站点做不做SEO优化,是否在意自然流量。凡是下拉词是大家都需要关键词的,不仅仅是简单的SEO层面

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1182
    • 百度下拉框
    • 下拉词
  • 别让面面俱到毁了你的SEO

    网站目录,SEO

    现在很多的站点都有一个现象,一种非常不利于SEO优化的现象,但却是很多站点设计的时候必踩的雷区。超级多的网站目录,看似非常合理的设计,实则利大于弊。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 421
    • 网站目录
    • SEO
  • 做seo常用的4个标签

    SEO常用标签

    在做seo的时候,经常会碰到网站页面的标签的使用问题,这些标签你不得不好好对待。因为这些标签可以帮助日后的网站优化,并且很有利于提高网站权重。那么下面就和你说下做seo常用的4个标签:

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1758
    • SEO常用标签
  • SEO真的是免费获取流量吗?

    SEO,免费流量

    ​很多人对于SEO的认知是免费流量,做SEO的目的也是为了获取免费流量。正式因为这种错误的认知,才造就了众多站点的SEO之路通往了失败的大门。SEO的确是属于免费流量的渠道,但是获取过程并非你所认知的低成本。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 847
    • SEO
    • 免费流量