如何防止假蜘蛛抓取内容

什么是假蜘蛛

搜索引擎爬虫我们称之为蜘蛛,假蜘蛛即伪装成搜索引擎的爬虫。目的就是掩人耳目的去爬取采集网站的内容。

普通的爬虫很容易被站点发现屏蔽,对于搜索引擎蜘蛛站点都是没什么警惕心,希望多来抓取可以有效增加收录量和速度。

如何鉴别假蜘蛛

网站日志会记录所有访问ip的请求头即user-agent,通过修改蜘蛛的请求头为搜索引擎公布的蜘蛛的UA名。

因此,我们光看日志是无法直接辨别真假蜘蛛的。大多数搜索引擎都是ip反查,比如我们通过windows电脑cmd中使用nslookp反查蜘蛛的ip能够获取到对应搜索引擎解析的为真蜘蛛,在这种方法下假蜘蛛无法遁形。

但是问题是如果不能事实鉴别假蜘蛛,内容被采集走了在屏蔽也失去了意义。

如何识别鉴别假蜘蛛

要最大程度的保护内容不被假蜘蛛爬取,我们就需要在后端程序中处理。对于假蜘蛛在第一次访问的时候进行ip的封禁。

真假蜘蛛自动鉴别

我们就拿php为例,可以使用gethostbyaddr函数,可以实现nslookup同样的功能,返回的参数也是相同的。对于真蜘蛛就是返回对应ip解析到的域名,然后匹配下是否是我们允许的蜘蛛域。

$IP = $_SERVER['REMOTE_ADDR'];
$hostname = gethostbyaddr($IP);

添加蜘蛛白名单

有些蜘蛛无法支持反查,我们可以把这类蜘蛛的ip段添加白名单,同时我们对于网站反查到的蜘蛛ip经过人工确定之后,也同样加入白名单。可以防止程序出错时误屏蔽蜘蛛,以及加快程序的响应速度。

原创保护防采集

对于其他的爬虫我们还是需要去检测同一个ip是否有大段时间大量访问的行为,对于异常ip我们可以使用验证码等方式验证,这也是基于我们拥有了通过ip鉴别蜘蛛的前提下,可以避免误伤搜索引擎的抓取任务。

采集只要你的内容可以显示就可以有办法采集,要想完全避免是不可能的,是双方之间的一场博弈。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seozhishi/664

相关文章

  • 令人崩溃的网页表单输入体验

    输入体验

    站长们必看的一篇文章,网站表单的输入体验真的非常的重要!今天遇到一个让我非常恼火的问题,相信大家一定也遇到过,当你再网页的表单中填写了很多内容,突然不小心关闭了页面或者点到了链接页面跳转导致编写的内容全部丢失,如何优化表单输入体验。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 470
    • 输入体验
  • 如何让关键词排名进入前20名

    主动访问用户,排名如何进入前20

    进入50名是一道坎,靠外链用户积累可以做到,但是关键词排名进入前20名,还是得靠主动访问用户占比的提高,也就用内容抓住用户,提高用户的忠诚度,二次访问。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1841
    • 主动访问用户
    • 排名如何进入前20
  • 百度索引量与收录量,两者有什么不同

    百度索引量,收录量

    在讲索引量和收录量的时候,就不得不反问下大家你真知道什么是收录吗?可以说大多数人对于收录的认知是错误,存在索引和收录概念混淆的情况。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1245
    • 百度索引量
    • 收录量
  • sitemap超详细超实用的教程

    sitemap,网站地图

    Sitemap的配置是非常简单的,但是如果想要获得最大SEO效果,那么Sitemap的制作还是存在很多技巧的,今天为大家总结一份全面详细的sitemap网站地图的保姆级教程,内容又长又实用记得先搜藏。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 4784
    • sitemap
    • 网站地图
  • 网站被恶意泛解析的解决方法

    恶意泛解析解决

    什么是泛域名解析,网站被恶意泛解析的解决方法。通过site对某网站进行查询的时候,发现突然多了许多的陌生二级域名页面,经过网上大量搜索才知道,这都是因为域名被恶意泛解析后导致的后果。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1294
    • 恶意泛解析解决
  • 如何快速提升关键词排名?

    提升关键词排名

    如何快速提升关键词排名?可以从流量冲击、时效性热点内容 、高质量外链、网站整体权重、交换一些友情链接,多角度同时进行有效快速提升关键词排名。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1307
    • 提升关键词排名
  • 如何用domian命令查询网站反链数量

    domain命令如何使用,外链反链数如何查询

    很多人会使用domain指令去查询网站的外链数量,更有机构公司把domain值当作外链数量的考核标准,真的是十分荒谬,domian真正的作用是!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 4734
    • domain命令如何使用
    • 外链反链数如何查询
  • 如何提升seo网站收录的关键点

    seo收录

    seo近1年来大家应该发现了网站越来难收录了,很多站点以前都是正常收录的也出现了收录难,那么要如何解决收录问题呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 655
    • seo收录
  • 百度搜索引擎Spider抓取系统的基本框架

    搜索引擎,百度spider

    互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider等。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 681
    • 搜索引擎
    • 百度spider
  • 网站备案对于SEO优化有影响吗?

    网站备案,SEO优化,权威性

    ​网站备案的注意事项,关于网站未备案对于SEO优化排名是否有影响争议不断,有部分人始终认为网站备案和SEO之间没有任何的影响。网站进行ICP备案是提升网站权威性的因素中较为重要的一个。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 691
    • 网站备案
    • SEO优化
    • 权威性
  • 如何快速提高网站收录

    快速收录,网站权重

    如何快速的提升网站的权重,哪些因素影响了网站的收录。但是网站权重不是一朝一夕就可以提升上来的,今天从几个重要点并且是力所能及的的点讲下如何提升网站的收录。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 996
    • 快速收录
    • 网站权重
  • AI大模型或将走上搜索引擎的老路

    AI大模,搜索引擎

    AI大模型以其强大的生成能力和广泛的应用场景,已逐步的融入到大家的生活中。AI大模的数据污染与低质量内容问题或将成为一个严峻的问题,AI大模型或将走上搜索引擎的老路。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3002
    • AI大模
    • 搜索引擎
  • 老域名对SEO优化效果有影响吗

    域名,seo优化

    相信大家经常听到建站要用老域名,对于收录排名会有很不错的优势,那么真的是这样吗?但这个结论是有一定的道理,但是还是比较片面,并不不能说老域名比新域名更利于SEO优化。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 909
    • 域名
    • seo优化
  • 掌握SEO内部链接优化,让网站权重更上一层

    权重,内链

    如何让你的网站在众多竞争对手中脱颖而出?内链优化无疑是你不容忽视的关键环节。内链的基本构成首先,我们要了解内链的种类和它们出现的位置。首先,我们要了解内链的种类和它们出现的位置。内链,即指向站内其他页面的链接,主要分为三类:锚文本链接、文本链接、图像链接。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 123
    • 权重
    • 内链
  • TF-IDF算法、关键词的形成条件

    成为关键词的条件

    说到SEO优化,那么第一次反应就是关键词的排名。很多人对于关键词的认知就是我在TDK中突出的词,或者把一个词在文章中突出重复,提升这个词的密度就可以让搜索引擎认为这个词是这个页面的关键词,然后一个词是否能成为关键词,并不是简单的重复就可以实现的,更多的是参考TF-IDF算法值来确定一个词是否成为关键词。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2237
    • 成为关键词的条件
  • 掌握品牌词监控:SEO优化的隐形翅膀

    SEO优化,品牌词

    在当今数字化营销的世界中,每一个站点都在追求流量的增长。然而,在众多的关键词中,我们往往忽略了最能直接反映网站健康状况的品牌词的重要性。今天,潘某人SEO就来探讨一下品牌词监控对于SEO优化的关键意义。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 116
    • SEO优化
    • 品牌词
  • 【必看】设置死链的秘诀!

    如何设置死链,404,seo

    死链相信大家都不陌生,但是你知道不及时处理死链对于SEO优化会有多大的影响嘛?今天就来普及下死链处理时的注意事项。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 771
    • 如何设置死链
    • 404
    • seo
  • 何为百度快照劫持,如何避免?

    百度快照劫持

    百度快照劫持是利用黑客技术拿到了你的ftp,或者应用网站漏洞,来篡改网站的网页内容,主要的通过在网页中插入js代码实现跳转,而当你检查网站代码的时候很难发现问题所在,如果没有一定的技术水平的情况下。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1147
    • 百度快照劫持