如何鉴别真假蜘蛛,代码自动化

相信所有站长都很痛恨假蜘蛛,我们这里说的蜘蛛是指搜索引擎爬虫蜘蛛。在我们观察网站日志的时候我们会发现有一些蜘蛛很有迷惑性,跟真蜘蛛一模一样,根本无法直接通过肉眼区分出来。

鉴别真假蜘蛛的方法

想要准确无误的判定蜘蛛的真实性,那么只有一个途径就是放过蜘蛛的IP反查其解析的域名,具体的方法参照真假蜘蛛ip识别。简单的讲就是我们可以通过电脑的cmd等工具使用“nslookup + ip”,看返回的结果是不是对于搜索引擎的域名。

因为访问的user-agent是可以修改的,但是这个ip与域名之间的解析,要么是域名所有者或者是劫持域名解析。对于搜索引擎的来说,通过这个方式的可能性为零,所以我们判定蜘蛛的真实性,只能使用这个方法。

假蜘蛛的目的

那么这些假蜘蛛的目的是什么,大多数就是为了采集你网站的内容、或者是对于网站进行攻击分析,伪装成搜索引擎蜘蛛可以获取站点的信任,降低被发现的可能性。如果你经常观察网站日志是很好发现的,搜索搜索引擎不会去抓取内容资源之外的链接。同时搜索引擎不会集中时间段去大量抓取内容,也不会去有顺序的挨个去抓取页面内容。

如何鉴别真假蜘蛛

虽然通过日志可以辨别出,但是我们不可能去时时刻刻监控网站日志;对于一些抓取内容的而已蜘蛛我们发现的时候,内容已经被爬了去了再去屏蔽意义也不是很大了,那么有什么办法自动化处理这些假蜘蛛呢?

代码自动化鉴别假蜘蛛

分享一个我觉得不错的方法,那就是在网站后端请求的时候对于访问客户端的身份做一个鉴别,对于存在问题的ip立刻进行一个屏蔽处理,就可以尽可能的保护我们的原创内容不被别人抄袭了去。

第一步就是鉴别,访问者的请求头也就是user-agent。如果请求头是蜘蛛名,那么我们就要判断其真实性,基本的原理就是反查ip。比如在php中我们无法使用nslookup命令去进行反查。但是我们可以使用gethostbyaddr()函数可以实现nslookup同样的功能。

第二步就是确认蜘蛛真实性,我们把gethostbyaddr()函数的返回值,去匹配下各个蜘蛛域名;就可以确认真的ip是不是真的搜索引擎爬虫。

第三步屏蔽处理与放通,对于存在问题的蜘蛛我们可以直接屏蔽当前IP访问网站的权限,同时你也可以直接返回一封警告信给它,估计会被你震惊到的。对于是真实蜘蛛的IP我们添加为白名单,下次直接放通不再做鉴别。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seozhishi/657

相关文章

  • 网站改版如何降低对SEO优化的影响?

    网站改版

    在网站的运营过程中,网站改版几乎是不可避免的一件事。无论是为了提升用户体验、适应新的业务需求,还是优化搜索引擎排名(SEO),我们都会面临改版的需求。 然而,很多站长或企业主担心的是:网站改版会影响SEO效果吗?会不会导致流量大幅下降?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 294
    • 网站改版
  • TrustRank域名信任度

    TrustRank域名信任度

    TrustRank域名信任度?由于搜索引擎在计算网页排名的时候,非常依赖连接,而且连接的质量越来越显得重要。由于搜索引擎在计算网页排名的时候,非常依赖连接,而且连接的质量越来越显得重要。在这种情况下,需要对连接的来源站点质量进行判断。更重要的是,以前依靠连接和相关性来决定排名的方式,

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2014
    • TrustRank域名信任度
  • 百度几种链接推送方式对比

    百度链接推送

    网站内容如果想要实现快速收录,那么及时的提交新内容链接是直接有效的方法。对于百度搜索来说链接提交方式是比较丰富的,大致分类主动提交、自动提交、手动提交和sitemap提交,那么你知道这四种提交方式有什么区别呢?哪张方式可以更快使内容收录呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1686
    • 百度链接推送
  • 商城网站如何进行SEO优化呢?

    商城SEO优化

    商城类站点流量只是一个最基本的,但是需要获得转化还有更加重要的方面综合考量,下面就列出商城站点需要注意的几个方面。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2099
    • 商城SEO优化
  • seo地域标签添加方法

    seo地域展现

    通过seo地域标签添加方法,精准的展现在我们需要的地域,城市进行展现,可以解决很多公司业务是具有地域性的特点,业务的目标客户集中在某些地域的问题,实现更加精准的推广营销。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1691
    • seo地域展现
  • 什么是反向链接,及其作用

    什么是反向链接

    什么是反向链接,及其作用对于SEO优化中起着什么作用呢?反向链接的种类非常的多,只要满足上述指向关系。比如常见的友情链接、网页目录、外部链接等等都可以认定是外链形式的反向链接。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2433
    • 什么是反向链接
  • 百度统计事件跟踪怎么添加

    百度统计事件跟踪,_trackEvent

    百度统计事件跟踪_trackEvent怎么添加使用,以一个页面点击的追踪统计作为一个例子。来演示下如何部署使用百度统计的事件分析js-api接口。学会合理利用事件分析功能,会对数据统计的灵活度有很大的提升,不仅对于SEO优化,网站的转化优化都可以提供强有力的支持。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2278
    • 百度统计事件跟踪
    • _trackEvent
  • 网站推广SEO还是SEM该如何选

    SEM,SEO

    在互联网营销中,网站推广是每个企业绕不开的话题。而提到推广方式,很多人第一时间想到的就是 SEO(搜索引擎优化) 和 SEM(搜索引擎竞价推广)。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 211
    • SEM
    • SEO
  • 做SEO前必须知道的那些事

    SEO优化

    入SEO者常有,而有效果者不常有,想要做好SEO获得效果,那么在做SEO前必须知道的这些事。在这个内卷的时代,广告费用节节攀升的情景下;再加上这些年来SEM付费广告的出现的一些负面事件,导致越来越多的人对搜索引擎的付费广告比较反感;这使得SEO的价值还在不断地提升。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 365
    • SEO优化
  • 如何鉴别一个人SEO的能力水平

    SEO的能力

    大家是通过什么方式鉴别一个人的seo能力呢?相信大多数人的方法就是看项目经验,比如面试的时候大多数情况就是看应聘者有没有成功的案例,但其实这种方式的是非常不科学的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 925
    • SEO的能力
  • 如何快速提高网站收录

    快速收录,网站权重

    如何快速的提升网站的权重,哪些因素影响了网站的收录。但是网站权重不是一朝一夕就可以提升上来的,今天从几个重要点并且是力所能及的的点讲下如何提升网站的收录。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1025
    • 快速收录
    • 网站权重
  • 搜索引擎如何判断内容的原创

    如何判断内容的原创

    搜索引擎其实并不能判断内容的到底是谁原创,看似有点惨无人道,原创成为抄袭。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1751
    • 如何判断内容的原创
  • 如何防止网站内容被采集保护原创

    防爬取,原创保护,防采集

    分享一个值得一看的保护内容被恶意抓取采集的方案,如何更高效率的从源头解决网站内容被采集,保护站点原创收录排名。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1941
    • 防爬取
    • 原创保护
    • 防采集
  • 如何禁止网页内容被复制

    如何禁止网页内容被复制

    现在SEO优化鼓励内容为王,也就是鼓励大家原创。那么问题来了,如果当我们在原创的时候自己的内容却在被别人抄袭,是不是很气人,今天教大家如何屏蔽网页内容的复制。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1980
    • 如何禁止网页内容被复制
  • 求职避雷指南:连SSL证书都要省的公司,你敢去吗?

    SSL证书,求职

    今天这篇文章不仅仅适用于SEO优化从业者,同时也适用于其他岗位的求职者,那你从此刻起,多了一个更加靠谱的方法判断公司是否靠谱。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 275
    • SSL证书
    • 求职
  • 如何让网站页面更快的收录

    页面更快收录

    如何让网站页面更快的收录,网站及页面权重、网站服务器、网站的更新频率、内容的质量等方面都影响这网站内容的收录,只要做到上面这几点网站的收录不会差

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1283
    • 页面更快收录
  • 长期不收录的页面如何处理?

    收录

    相信大家在日常的SEO优化工作中必然会遇到网站页面不收录的问题,那么我们应该如何得到正确对待和处理这些长期不收录的页面,出现问题不是最可怕的,可怕的是采取了错误的处理方式,加剧了问题和引出了更多的问题。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 707
    • 收录
  • SEO优化权重的错误认知

    SEO优化,权重

    如果你觉得权重就是seo优化的衡量标准,那么一定要看完这篇文章。相信对你肯定会有帮助,首先公布结论,权重作为SEO效果的衡量标准,只能作为参考,并且参考意义的大小还要根据实际情况分析。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 930
    • SEO优化
    • 权重