如何鉴别真假蜘蛛,代码自动化

相信所有站长都很痛恨假蜘蛛,我们这里说的蜘蛛是指搜索引擎爬虫蜘蛛。在我们观察网站日志的时候我们会发现有一些蜘蛛很有迷惑性,跟真蜘蛛一模一样,根本无法直接通过肉眼区分出来。

鉴别真假蜘蛛的方法

想要准确无误的判定蜘蛛的真实性,那么只有一个途径就是放过蜘蛛的IP反查其解析的域名,具体的方法参照真假蜘蛛ip识别。简单的讲就是我们可以通过电脑的cmd等工具使用“nslookup + ip”,看返回的结果是不是对于搜索引擎的域名。

因为访问的user-agent是可以修改的,但是这个ip与域名之间的解析,要么是域名所有者或者是劫持域名解析。对于搜索引擎的来说,通过这个方式的可能性为零,所以我们判定蜘蛛的真实性,只能使用这个方法。

假蜘蛛的目的

那么这些假蜘蛛的目的是什么,大多数就是为了采集你网站的内容、或者是对于网站进行攻击分析,伪装成搜索引擎蜘蛛可以获取站点的信任,降低被发现的可能性。如果你经常观察网站日志是很好发现的,搜索搜索引擎不会去抓取内容资源之外的链接。同时搜索引擎不会集中时间段去大量抓取内容,也不会去有顺序的挨个去抓取页面内容。

如何鉴别真假蜘蛛

虽然通过日志可以辨别出,但是我们不可能去时时刻刻监控网站日志;对于一些抓取内容的而已蜘蛛我们发现的时候,内容已经被爬了去了再去屏蔽意义也不是很大了,那么有什么办法自动化处理这些假蜘蛛呢?

代码自动化鉴别假蜘蛛

分享一个我觉得不错的方法,那就是在网站后端请求的时候对于访问客户端的身份做一个鉴别,对于存在问题的ip立刻进行一个屏蔽处理,就可以尽可能的保护我们的原创内容不被别人抄袭了去。

第一步就是鉴别,访问者的请求头也就是user-agent。如果请求头是蜘蛛名,那么我们就要判断其真实性,基本的原理就是反查ip。比如在php中我们无法使用nslookup命令去进行反查。但是我们可以使用gethostbyaddr()函数可以实现nslookup同样的功能。

第二步就是确认蜘蛛真实性,我们把gethostbyaddr()函数的返回值,去匹配下各个蜘蛛域名;就可以确认真的ip是不是真的搜索引擎爬虫。

第三步屏蔽处理与放通,对于存在问题的蜘蛛我们可以直接屏蔽当前IP访问网站的权限,同时你也可以直接返回一封警告信给它,估计会被你震惊到的。对于是真实蜘蛛的IP我们添加为白名单,下次直接放通不再做鉴别。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seozhishi/657

相关文章

  • 百度自然排名的规律

    自然排名的规律

    排在百度首页的,很多人认为是经常更新内容,外链发的多,时间做得久的页面,但实则不然。那么我们如何做才能在百度SEO中脱颖而出呢?从百度排名的规则分析了如何快速获得排名呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2136
    • 自然排名的规律
  • SEO如何屏蔽蜘蛛抓取,你掌握了哪些多少种!

    蜘蛛

    在SEO优化中有很多情况需要对蜘蛛进行屏蔽,那么作为一个SEO就必须知道屏蔽搜索引擎蜘蛛的常见方案,以及结合实践采用正确的方法来屏蔽蜘蛛。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 773
    • 蜘蛛
  • 修改网站关键词会影响网站排名吗?

    修改关键词影响排名

    对于网站关键词关键词会不会影响网站排名,相信大多数人都是人为网站关键词的修改对于网站的排名会有很大的影响的。但是在现实中很对网站因为运营需求的改变,就不得不需要对网站的关键词进行修改。那么如何才能保证网站的受到最小的影响呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2011
    • 修改关键词影响排名
  • SEO如何布局您的PC站和移动站

    PC站和移动站如何做适配

    SEO如何布局您的PC站和移动站,目前较流量的PC站与移动站配置方式有三种,百度站在搜索引擎角度将这三种分别称为跳转适配、代码适配和自适应,以下为这三种配置方式的名词解释及异同对比。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2680
    • PC站和移动站如何做适配
  • 多域名解析到同一网站利于排名吗?

    多域名解析

    多域名解析到同一个网站,个人觉得这种行为就是闲的,没事找事给自己挖坑。多域名解析到同一个网站,首先运营上的意义不大,并且非常容易出现重复收录,权重分散的问题,所以除非有迫不得已的原因,打死都不要去多域名解析到一个网站。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1193
    • 多域名解析
  • SEO必须了解这些h5标签,内含检测工具及方法

    h5标签

    HTML5标签对SEO的作用主要体现在内容语义化、结构优化、用户体验提升三个维度,通过帮助搜索引擎精准理解网页内容,提升页面在搜索结果中的可见性。通过系统化应用HTML5标签,可实现技术SEO与内容SEO的双重优化,显著提升网站在搜索引擎中的竞争力。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 5011
    • h5标签
  • flash、ifream、js、ajax不利于抓取收录吗

    ajax,flash,ifream,js,不利于抓取,抓取不到

    flash、ifream、js、ajax搜索引擎抓取不到,所以网站优化的时候就要去避免使用这些代码,这种想法是错误的,片面的,只要合理使用也可以帮助优化!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1804
    • ajax
    • flash
    • ifream
    • js
    • 不利于抓取
    • 抓取不到
  • 如何才能让移动端获得更好的排名

    移动端排名优化

    移动端获得更好的排名?同PC端的需求一样,收录问题解决后面临的就是排序问题了。在介绍排序原则之前先简休介绍一下移动搜索结果的构成,移动搜索主要有如下几类结果构成:移动页面、转码页面、PC页面。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1877
    • 移动端排名优化
  • SEO优化如何运用好meta标签

    meta标签运用

    在SEO网站优化过程中应该知道网站的三大meta标签的重要性,这三种标签设置的好坏直接影响着网站后期的优化效果。下面就来和大家说说在SEO优化中如何运用meta标签。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2356
    • meta标签运用
  • 一文带你全面了解SSL证书

    SSL证书

    HTTPS不再是可选项,而是数字时代的生存刚需,在浏览器地址栏中,那个不起眼的“锁头”图标,正悄然成为用户判断网站可信度的第一道门槛。浏览器对于未安装SSL证书的网站,在地址栏超级为"不安全",甚至会拦截用户的访问。对于大多数站点只在关注证书是否免费,从未深究其中的区别,今天潘某人SEO带你全面的了解下SSL证书的那些事。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 485
    • SSL证书
  • 跳出权重与流量的误区

    权重,流量

    很多站长都是以权重来衡量网站的优化效果,权重代表着流量的级别,大致上是一个正比关系。诚然,权重在一定程度上反映了网站的流量级别,但将权重直接等同于站点的实际流量水平,则是一种过于简单的看法,是片面的。今天,潘某人SEO就带大家来探讨下权重与流量的关系。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 331
    • 权重
    • 流量
  • 用户喜欢的内容的样子,续集

    SEO优化

    SEO优化回归本质是内容的优化,内容的核心是基于用户的需求,那么你了解用户吗?用户真正想要的内容是怎么样呢?当你搞明白了这个问题,相信对于的SEO优化会有很大的帮助。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 919
    • SEO优化
  • 如何使用Canonical标签解决重复页

    Canonical标签

    Canonical标签用于告知搜索引擎,重复页面中哪个页面是规范页,有利于集中权重提升排名,但是总体来说Canonical标签能不用!就不用了

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2198
    • Canonical标签
  • 【图解】C位直达后台操作说明

    C位直达

    如何在C位直达活动页查看规则、领取词包、上传内容以及查看收益,有兴趣参与C位直达的小伙伴们,千万不能错过这篇干货文章哦!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1454
    • C位直达
  • 这才是SEO站外优化正确的做法

    站外优化

    在SEO的世界里,很多人把“站外优化”等同于“发外链”。但事实上,这种理解是错误的也是片面的。随着搜索引擎算法的不断升级,对买卖外链行为的严厉打击),单纯依赖外链建设已经不再有效,甚至可能适得其反。那么,真正的SEO站外优化到底应该怎么做?其实,品牌建设才是站外优化的核心驱动力,而外链只是其中的一环。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 429
    • 站外优化
  • 学会这招,你再也不用头疼的挖掘关键词

    关键词

    在SEO优化的过程中,关键词挖掘是一项至关重要的任务。通过精准地定位目标关键词,网站能够更有效地吸引目标流量,提升搜索引擎排名,进而实现流量的增长。关键词挖掘是seo优化中非常重要的一项工作。可以说每个seo都有自己的挖掘关键词的方法,今天潘某人SEO分享的关键词的挖掘方法可以说适合任何的站点,并且可行性及高。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 5001
    • 关键词
  • 百度新闻检索准入规则更新

    新闻源准入规则

    2021-04-16百度更新了“新闻资讯”的准入规则,“为满足用户对高时效性新闻资讯的需求,百度新闻检索数据分发策略在2017年由人工运营+策略识别的新闻源升级为纯机器识别的分发策略,符合准入标准的百家号内容和网站内容,无需申请都有机会通过百度时效性产品展现给用户。”

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1347
    • 新闻源准入规则
  • 搜索引擎的工作原理

    搜索引擎工作原理,收录原理

    讲述搜索引擎的工作原理,以及SEO优化中如何提高收录效率的方法。提高网站内容的质量原创度,稀缺性,和搜索引擎建立良好的信任关系。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1617
    • 搜索引擎工作原理
    • 收录原理