如何防止假蜘蛛抓取内容

什么是假蜘蛛

搜索引擎爬虫我们称之为蜘蛛,假蜘蛛即伪装成搜索引擎的爬虫。目的就是掩人耳目的去爬取采集网站的内容。

普通的爬虫很容易被站点发现屏蔽,对于搜索引擎蜘蛛站点都是没什么警惕心,希望多来抓取可以有效增加收录量和速度。

如何鉴别假蜘蛛

网站日志会记录所有访问ip的请求头即user-agent,通过修改蜘蛛的请求头为搜索引擎公布的蜘蛛的UA名。

因此,我们光看日志是无法直接辨别真假蜘蛛的。大多数搜索引擎都是ip反查,比如我们通过windows电脑cmd中使用nslookp反查蜘蛛的ip能够获取到对应搜索引擎解析的为真蜘蛛,在这种方法下假蜘蛛无法遁形。

但是问题是如果不能事实鉴别假蜘蛛,内容被采集走了在屏蔽也失去了意义。

如何识别鉴别假蜘蛛

要最大程度的保护内容不被假蜘蛛爬取,我们就需要在后端程序中处理。对于假蜘蛛在第一次访问的时候进行ip的封禁。

真假蜘蛛自动鉴别

我们就拿php为例,可以使用gethostbyaddr函数,可以实现nslookup同样的功能,返回的参数也是相同的。对于真蜘蛛就是返回对应ip解析到的域名,然后匹配下是否是我们允许的蜘蛛域。

$IP = $_SERVER['REMOTE_ADDR'];
$hostname = gethostbyaddr($IP);

添加蜘蛛白名单

有些蜘蛛无法支持反查,我们可以把这类蜘蛛的ip段添加白名单,同时我们对于网站反查到的蜘蛛ip经过人工确定之后,也同样加入白名单。可以防止程序出错时误屏蔽蜘蛛,以及加快程序的响应速度。

原创保护防采集

对于其他的爬虫我们还是需要去检测同一个ip是否有大段时间大量访问的行为,对于异常ip我们可以使用验证码等方式验证,这也是基于我们拥有了通过ip鉴别蜘蛛的前提下,可以避免误伤搜索引擎的抓取任务。

采集只要你的内容可以显示就可以有办法采集,要想完全避免是不可能的,是双方之间的一场博弈。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seozhishi/664

相关文章

  • 真假蜘蛛ip识别

    真假蜘蛛识别

    我们如何分辨真假蜘蛛的ip,对于SEO优化来说学会如何看网站日志,如何的去分辨有问题的假蜘蛛是非常有必要的。可以大大的提高网站的安全性,已经防止网站内容被大量的抄袭转载。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1457
    • 真假蜘蛛识别
  • 如何鉴别真假蜘蛛,代码自动化

    蜘蛛鉴别,假爬虫屏蔽

    如何使用代码自动化的识别蜘蛛的真实性,防止被假蜘蛛抓取网站内容。分享一个通过代码自动化鉴别屏蔽加搜索引擎爬虫的思路。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1745
    • 蜘蛛鉴别
    • 假爬虫屏蔽
  • SEO原创内容真的正确吗?大多人都搞错了重点!

    SEO原创

    “做SEO,必须原创!”这句话你是不是已经听了无数遍?从搜索引擎官方到SEO大神,都在强调“原创内容有利于排名”。于是,无数人开始熬夜写稿、花钱请写手、甚至用AI批量生成“原创内容”……但结果呢?流量没涨,排名没动,投入的时间和金钱却打了水漂。因为你可能从一开始就搞错了重点——原创 ≠ 有价值,而SEO真正需要的,是价值,不是“原创”这个标签。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 527
    • SEO原创
  • 原创 ≠ 高收录高排名!真正决定内容成败的,是这4个关键点!

    原创,收录

    在搜索引擎算法不断升级的今天,过去那种靠技术“钻空子”就能轻松获取排名的时代已经一去不复返了。越来越多的内容创作者和网站运营者意识到:只有产出优质内容,才能真正赢得流量与用户。于是,大家纷纷转向原创、伪原创,试图通过“原创内容”来提升收录、获得排名。但现实却往往令人失望——很多站点即便坚持原创,依然难见起色,甚至连基本的收录都难以保障。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 688
    • 原创
    • 收录
  • 原创内容是SEO优化的关键吗

    原创,SEO优化

    在搜索引擎算法日新月异的今天,通过技术手段试图获取排名的方式越来越难以为继,稳定性也大打折扣。可以说,我们已经步入了“内容为王”的时代。不少坚持进行原创内容创作的站点发现,效果并不如预期,甚至在收录方面都遇到了重重困难。很多人认为内容质量等同于原创性,但事实真的如此吗?原创内容是SEO优化的关键吗?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 459
    • 原创
    • SEO优化
  • 原创内容,收录的关键?

    原创

    大家是否经常听到,很多站点每天都坚持更新原创文章,但是收录和排名并不理想。在众多因素中,原创性被普遍认为是影响内容收录速度的关键因素之一。那么,原创内容是否真的能够更快地被搜索引擎收录呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 579
    • 原创
  • AI人工智能对于SEO优化产生的影响

    AI,SEO优化

    如今,AI人工智能已经渗透到生活工作中的方方面面,应用场景日益丰富,于此同时问题也逐步显现,如隐私保护、社会影响、就业影响等问题,那么人工智能AI对于SEO优化会产生什么样的影响呢? 今天我们就来探索下AI对于SEO会带来什么样的影响,分别从搜索引擎的三方角色进行分析。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1076
    • AI
    • SEO优化
  • 什么是闭站保护,无法申请闭站保护怎么办?

    闭站保护,seo

    闭站保护是什么,闭站保护对于站点有什么作用;但是如果站点无法申请闭站保护又要如何应对呢?今天潘某人SEO就以一次闭站的经历分享来告诉大家如何正常的处理闭站保护。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1015
    • 闭站保护
    • seo
  • 内容防抓取原创保护的方法

    原创保护,防抓取,防采集

    ​站点的内容经常被恶意采集爬取,辛辛苦苦码的原创内容被人轻而易举的强取豪夺,被采集可以说是另站长们最痛疼的事情之一了,今天潘某人SEO就与大家分享若干方法,期望可以对大家有帮助。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1061
    • 原创保护
    • 防抓取
    • 防采集
  • 为什么打击采集行为,采集站还是有很高权重

    采集,权重

    搜索引擎不断的打击采集行为,但是采集站点的收录排名和权重还是非常好;如果你无法理解那么你对于搜索引擎的核心不够了解,本文带你探索搜索引擎和采集的那点事,教你如果正确面对采集行为。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1208
    • 采集
    • 权重
  • 如何防止网站内容被采集保护原创

    防爬取,原创保护,防采集

    分享一个值得一看的保护内容被恶意抓取采集的方案,如何更高效率的从源头解决网站内容被采集,保护站点原创收录排名。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2254
    • 防爬取
    • 原创保护
    • 防采集
  • 搜索引擎内容原创性之分词技术与文本粒度

    分词技术,文本的粒度,内容原创性

    seo优化中内容的原创性是非常重要的,那么对于搜索引擎是如何判断内容的原创性呢?从分词技术和文本粒度来研究下伪原创内容对于SEO优化存在意义。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1302
    • 分词技术
    • 文本的粒度
    • 内容原创性
  • 百度搜索治理生态违规行为报告解读,seo作弊行为打击

    百度搜索生态,seo作弊打击

    2021年百度搜索治理生态违规行为报告解读,seo优化的发展趋势及对于那些违规优化手段的处理。百度搜索在不断加强seo作弊行为、加强了低质量站点,恶意采集行为的识别、以及一些对于损害用户体验行为的处理。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1082
    • 百度搜索生态
    • seo作弊打击
  • 如何做好原创内容版权保护

    版权保护,原创内容保护,百度时间因子

    分享如何对站点原创内容的保护,如何查找抄袭站点,如何保留抄袭证据等方法,来保护自己的合法权益。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1475
    • 版权保护
    • 原创内容保护
    • 百度时间因子
  • 原创内容收录排名一定好吗?

    原创内容收录

    可以说现在已经已经进入了内容为王的时代,站点想要流量就必须生产优质内容,逐渐的大家都在进行原创或者为原创,但是很多站点并没有多大的效果,甚至有的站点收录都非常困难。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1243
    • 原创内容收录
  • UGC是什么意思,对于SEO优化的作用

    UGC,SEO优化

    UGC是什么意思,对于SEO优化的作用,UGC 互联网术语,全称为User Generated Content,也就是用户生成内容,即用户原创内容。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1563
    • UGC
    • SEO优化
  • 什么是AI写作,对SEO有作用吗?

    AI写作,伪原创,收录

    伪原创,在原创和采集之间取了一个中间点,既节省了时间又提升了内容的生产速度。随着伪原创不断的发展就出现了AI写作这个概念,AI写作对SEO有作用吗,目的是为了进行更深层次的伪原创加大搜索引擎识别的难度,从而降低网站被算法识别惩罚的几率。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1184
    • AI写作
    • 伪原创
    • 收录
  • 如何实现内容发布自动推送链接

    自动推送链接,api推送,网站收录

    php实现网站内容发布的同时调用百度api接口对网站内容进行自动的同步链接推送。保证网站原创内容的权益。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1314
    • 自动推送链接
    • api推送
    • 网站收录
  • 百度飓风算法解读

    百度飓风算法

    百度飓风算法主要是打击恶劣采集拼凑行为,保护原创作者的权益,提升用户的阅读体验,促进搜索引擎生态的健康发展。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1871
    • 百度飓风算法
  • 百度天网算法,用户隐私保护

    百度天网算法,用户隐私保护

    百度天网算法打击恶意盗取网民的QQ号、手机号进行营销推广的行为。打击这种严重侵犯用户隐私的行为的站点。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1713
    • 百度天网算法
    • 用户隐私保护
  • 伪原创文章会被收录吗

    伪原创,收录

    伪原创的方法有哪些?伪原创对于网站的收录有影响吗?为什么很多站点优化效果不好呢?大多数是因为站点内容的问题,内容不够优质是导致SEO优化失败的主要因素。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1521
    • 伪原创
    • 收录
  • 原创内容如何保护,防止被抄袭爬取

    原创保护,防止抄袭爬取

    如今搜索引发展趋势是内容为王,想要获得好的排名那么优质得内容是必不可少的。面对无数的抄袭者我们如何保护自己不被抄袭、页面被复制、防止爬虫爬取。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1507
    • 原创保护
    • 防止抄袭爬取
  • 什么是闭站保护?如何申请与解除?

    闭站保护,网站索引

    闭站保护是用于保护网站因为某些原因需要关停一段时间,来保护网站在搜索引擎中的索引数据,从而不会因为这段时间无法访问造成过大的影响。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1353
    • 闭站保护
    • 网站索引
  • 如何打击抄袭洗稿行为

    原创内容,抄袭打击

    很多站点喜欢复制粘帖到处抄袭,对于原创站点我们如何让他们付出代价呢?今天就分享一下对于打击抄袭的一个方案,让抄袭洗稿者付出代价。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1450
    • 原创内容
    • 抄袭打击
  • 百度绿萝算法打击哪些行为

    绿萝算法

    百度绿萝算法解读,绿萝算法是一种为了打击通过买卖链接干扰搜索引擎算法获得排名的行为而设计的,主要为了保证搜索排名的公平性,保护真正有价值内容获得更高的流量,保障了搜索引擎生态的健康发展。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1849
    • 绿萝算法
  • 通过时效性内容提高网站收录速度

    时效性内容收录

    通过时效性内容提高网站收录速度是一个不错的方法,但是你知道如何保护自己的原创内容不被别人抄袭还比你更快收录吗?一种提高内容收录及更新抓取速度的方法。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1991
    • 时效性内容收录
  • 网站seo必须要写原创么

    SEO需要原创

    对于网站SEO优化,内容必须原创吗?对于非原创的内容就不适合去做SEO优化吗?但是作为一个优秀的SEO不能单单这么简单的考虑问题,SEO优化是一个灵活的工作,对于任何一个问题都没有一个标准的答案。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1338
    • SEO需要原创
  • 怎么提高网站收录速度

    提高收录速度

    怎么提高网站收录速度?网站收录对于网站优化来说是非常重要的,我们当然喜欢是网站的收录速度越快越好,这样对于我们内容的保护起到很重要的作用,因为如果网站收录速度很慢,这样很容易自己的原创内容被人抄袭,别人还先收录了成为了原创而你的成了抄袭这个是很悲催的一件事。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1996
    • 提高收录速度
  • 如何防止内容被抄袭影响品牌塑造

    品牌影响力与外链

    国内目前还是处于一个知识产权薄弱的环境,虽然近些年来在音乐影视作用的版权保护有着不错的提升,但是对于普通的文章文字的版权保护依然还是不足,那么我们应该如何来保护自身的权益呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2264
    • 品牌影响力与外链
  • 百度原创星火计划是什么

    星火计划

    百度原创星火计划(又称伪原创的算法)是在,百度搜索团队首次表示,正在设计一套较完善的原创识别算法,并提出了互联网生态的项目课题,是为了解决原创内容的搜索排名问题。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2061
    • 星火计划