首页 >  SEO >  SEO知识 >  正文

如何防止假蜘蛛抓取内容

 作者:潘某人SEO
1920

什么是假蜘蛛

搜索引擎爬虫我们称之为蜘蛛,假蜘蛛即伪装成搜索引擎的爬虫。目的就是掩人耳目的去爬取采集网站的内容。

普通的爬虫很容易被站点发现屏蔽,对于搜索引擎蜘蛛站点都是没什么警惕心,希望多来抓取可以有效增加收录量和速度。

如何鉴别假蜘蛛

网站日志会记录所有访问ip的请求头即user-agent,通过修改蜘蛛的请求头为搜索引擎公布的蜘蛛的UA名。

因此,我们光看日志是无法直接辨别真假蜘蛛的。大多数搜索引擎都是ip反查,比如我们通过windows电脑cmd中使用nslookp反查蜘蛛的ip能够获取到对应搜索引擎解析的为真蜘蛛,在这种方法下假蜘蛛无法遁形。

但是问题是如果不能事实鉴别假蜘蛛,内容被采集走了在屏蔽也失去了意义。

如何识别鉴别假蜘蛛

要最大程度的保护内容不被假蜘蛛爬取,我们就需要在后端程序中处理。对于假蜘蛛在第一次访问的时候进行ip的封禁。

真假蜘蛛自动鉴别

我们就拿php为例,可以使用gethostbyaddr函数,可以实现nslookup同样的功能,返回的参数也是相同的。对于真蜘蛛就是返回对应ip解析到的域名,然后匹配下是否是我们允许的蜘蛛域。

$IP = $_SERVER['REMOTE_ADDR'];
$hostname = gethostbyaddr($IP);

添加蜘蛛白名单

有些蜘蛛无法支持反查,我们可以把这类蜘蛛的ip段添加白名单,同时我们对于网站反查到的蜘蛛ip经过人工确定之后,也同样加入白名单。可以防止程序出错时误屏蔽蜘蛛,以及加快程序的响应速度。

原创保护防采集

对于其他的爬虫我们还是需要去检测同一个ip是否有大段时间大量访问的行为,对于异常ip我们可以使用验证码等方式验证,这也是基于我们拥有了通过ip鉴别蜘蛛的前提下,可以避免误伤搜索引擎的抓取任务。

采集只要你的内容可以显示就可以有办法采集,要想完全避免是不可能的,是双方之间的一场博弈。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seozhishi/664
相关文章
  • 什么是面包屑导航

    面包屑导航

    什么是面包屑导航,使用面包屑导航的优点,面包屑导航的作用是告诉访问者他们目前在网站中的位置以及如何返回。

    828
    • 面包屑导航
  • 巧用Robots避免蜘蛛黑洞

    Robots,蜘蛛黑洞

    搜索引擎的蜘蛛黑洞指的是搜索引擎蜘蛛在抓取站点内容的时候出现了大量雷同内容的url,导致搜索引擎蜘蛛一直被困在无限的循环中,如黑洞一般。直接的结果就会导致消耗大量的抓取资源。

    776
    • Robots
    • 蜘蛛黑洞
  • 一文带你了解百度搜索引擎抓取收录的原理

    百度seo,抓取,收录

    作为一个seo从业者三句话不离收录,但是大家对于收录的原理真的了解吗,相信很多了解到的就是蜘蛛来抓取然后内容收录,但其实这种理解是比较片面的,了解搜索引擎的收录原理对于提升收录是非常有帮助的。

    595
    • 百度seo
    • 抓取
    • 收录
  • 别再一味的关注关键词排名

    关键词排名

    关键词排名不能代表什么,如果你一味的最求关键词排名,那么必然掉坑里;seo优化的最终目的是带来转化,这需要的是有价值的流量,需要的是有搜索热度并且匹配度高的关键词。

    721
    • 关键词排名
  • SEO与付费SEM推广哪个好?

    SEO优化,SEM推广

    网站的推广方式只要有两种SEO(搜索引擎优化)和SEM(搜索引擎竞价推广),两者同时通过在搜索关键词时在搜索引擎上获得靠前的排名,增加展现几率来获取用户的点击。那么SEO与付费SEM推广哪个好呢,那种推广方式才更加适合我们呢?

    790
    • SEO优化
    • SEM推广
  • 百度冰桶算法,移动页用户体验保护

    百度冰桶算法

    百度一直都在打击移动端用户体验不好的网站,从app的强制下载到现在的广告位置布局,冰桶算法是专门为了移动端体验效果而生的算法,为了提高移动端的用户体验效果

    2560
    • 百度冰桶算法
  • 用户喜欢的内容的样子,续集

    SEO优化

    SEO优化回归本质是内容的优化,内容的核心是基于用户的需求,那么你了解用户吗?用户真正想要的内容是怎么样呢?当你搞明白了这个问题,相信对于的SEO优化会有很大的帮助。

    734
    • SEO优化
  • TF-IDF算法、关键词的形成条件

    成为关键词的条件

    说到SEO优化,那么第一次反应就是关键词的排名。很多人对于关键词的认知就是我在TDK中突出的词,或者把一个词在文章中突出重复,提升这个词的密度就可以让搜索引擎认为这个词是这个页面的关键词,然后一个词是否能成为关键词,并不是简单的重复就可以实现的,更多的是参考TF-IDF算法值来确定一个词是否成为关键词。

    2110
    • 成为关键词的条件
  • 如何防止网站被黑

    防止网站被黑.防火墙配置,出入站规则

    合理的配置服务器防火墙的出入站规则,可以有效的屏蔽恶意访问,从而提升网站的安全性防止网站被黑,望着那别攻击很有可能优化规则前功尽弃。

    881
    • 防止网站被黑.防火墙配置
    • 出入站规则
  • 搜索引擎抓取系统概述

    搜索引擎,蜘蛛

    今天就给大家简单的介绍一下搜索引擎系统大致工作原理,内容比较多会分几次更新,大家记得关注“潘某人SEO”坐等更新。先给大家介绍下搜索引擎的基础知识:抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程三部分。

    1081
    • 搜索引擎
    • 蜘蛛
  • 怎么提高网站收录量

    提高收录量

    怎么提高网站收录量?很多人认为靠着定时定量的更新内容可以得到一个稳定的收录。但是我们完全没有必要去定时定量,收录与否与这些因素并没有任何直接关联。我们应该做的是去控制内容的.....

    1067
    • 提高收录量
  • 如何提升seo网站收录的关键点

    seo收录

    seo近1年来大家应该发现了网站越来难收录了,很多站点以前都是正常收录的也出现了收录难,那么要如何解决收录问题呢?

    586
    • seo收录
  • 网站制作上线的基本流程

    网站制作,SEO优化

    网站制作上线的基本流程,从网站定位、网站程序选择、网站域名主机选择、网站SEO优化、内容填充几个方面来分析如何进行SEO化的网站搭建。

    926
    • 网站制作
    • SEO优化
  • 如何使用Canonical标签解决重复页

    Canonical标签

    Canonical标签用于告知搜索引擎,重复页面中哪个页面是规范页,有利于集中权重提升排名,但是总体来说Canonical标签能不用!就不用了

    1945
    • Canonical标签
  • 做seo需要具备哪些条件

    seo优化条件

    并不是所有网站所有行业适合做网站优化,哪些网站适合做SEO优化呢?需要哪些条件呢?

    902
    • seo优化条件
  • 如何用domian命令查询网站反链数量

    domain命令如何使用,外链反链数如何查询

    很多人会使用domain指令去查询网站的外链数量,更有机构公司把domain值当作外链数量的考核标准,真的是十分荒谬,domian真正的作用是!

    4619
    • domain命令如何使用
    • 外链反链数如何查询
  • 索引量波动意味着什么?需要重视吗?

    索引量,流量,seo

    索引量的波动牵动了多少站长心,根据不可靠研究,据说索引量波动得足够猛,可以影响到站长们的心电图。尤其突然的下降,一次性掉了大半年积累到的索引量。那么遇到索引量大幅度波动对于站点意味着什么呢?

    655
    • 索引量
    • 流量
    • seo
  • 如何防止网站内容被采集保护原创

    防爬取,原创保护,防采集

    分享一个值得一看的保护内容被恶意抓取采集的方案,如何更高效率的从源头解决网站内容被采集,保护站点原创收录排名。

    1789
    • 防爬取
    • 原创保护
    • 防采集
-- 这已经是底线了,看看别的把! --