首页 >  SEO >  SEO知识 >  正文

如何防止假蜘蛛抓取内容

 作者:潘某人SEO
1099

什么是假蜘蛛

搜索引擎爬虫我们称之为蜘蛛,假蜘蛛即伪装成搜索引擎的爬虫。目的就是掩人耳目的去爬取采集网站的内容。

普通的爬虫很容易被站点发现屏蔽,对于搜索引擎蜘蛛站点都是没什么警惕心,希望多来抓取可以有效增加收录量和速度。

如何鉴别假蜘蛛

网站日志会记录所有访问ip的请求头即user-agent,通过修改蜘蛛的请求头为搜索引擎公布的蜘蛛的UA名。

因此,我们光看日志是无法直接辨别真假蜘蛛的。大多数搜索引擎都是ip反查,比如我们通过windows电脑cmd中使用nslookp反查蜘蛛的ip能够获取到对应搜索引擎解析的为真蜘蛛,在这种方法下假蜘蛛无法遁形。

但是问题是如果不能事实鉴别假蜘蛛,内容被采集走了在屏蔽也失去了意义。

如何识别鉴别假蜘蛛

要最大程度的保护内容不被假蜘蛛爬取,我们就需要在后端程序中处理。对于假蜘蛛在第一次访问的时候进行ip的封禁。

真假蜘蛛自动鉴别

我们就拿php为例,可以使用gethostbyaddr函数,可以实现nslookup同样的功能,返回的参数也是相同的。对于真蜘蛛就是返回对应ip解析到的域名,然后匹配下是否是我们允许的蜘蛛域。

$IP = $_SERVER['REMOTE_ADDR'];
$hostname = gethostbyaddr($IP);

添加蜘蛛白名单

有些蜘蛛无法支持反查,我们可以把这类蜘蛛的ip段添加白名单,同时我们对于网站反查到的蜘蛛ip经过人工确定之后,也同样加入白名单。可以防止程序出错时误屏蔽蜘蛛,以及加快程序的响应速度。

原创保护防采集

对于其他的爬虫我们还是需要去检测同一个ip是否有大段时间大量访问的行为,对于异常ip我们可以使用验证码等方式验证,这也是基于我们拥有了通过ip鉴别蜘蛛的前提下,可以避免误伤搜索引擎的抓取任务。

采集只要你的内容可以显示就可以有办法采集,要想完全避免是不可能的,是双方之间的一场博弈。

公众号
潘某人SEO 关注我每天学习SEO优化相关知识... 470篇原创内容
潘某SEO 公众号
申明:以上内容仅代表个人观点,仅供学习参考 本站图片来源于CC0协议或已获得VRF授权的图库站点 版权申明:本文为博主原创,未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本文地址:https://www.chateach.com/seo/seozhishi/664
相关文章
  • 如何利用行业关键词提高曝光量

    关键词曝光

    同样的SEO优化方案对于不同行业的效果是不一样的,我们如何利用行业关键词去提升网站的曝光是一项重要的技巧。

    1422
    • 关键词曝光
  • robots文件里该不该加上sitemap地址

    robots里放sitemap

    robots文件里该不该加上sitemap地址,有种说法就是搜索引擎抓取一个网站首先会抓取robots文件,这样把sitemap地址写在robots文件里,这样搜索引擎可以地址直接的对网站地图进行抓取,可以加快链接收录的速度,真相并不是这样

    1645
    • robots里放sitemap
  • 外链对SEO优化的影响

    外链SEO优化

    SEO优化中核心的一个过程就是发外链,不论是过去还是现在,外链都是一个备受争议的话题,有人说外链对SEO优化没有什么用了,而有的人又对做外链情有独钟。那么外链到底还有没有用,我们在发布外链的时候该注意什么,怎样才能获得优质的外链呢。

    858
    • 外链SEO优化
  • SEO关键词你选对了吗?分享选词妙招!

    SEO,关键词,选词

    ​关键词是SEO优化核心之一,也是用户、搜索引擎和站点之间的桥梁,用户通过在搜索引擎使用关键词搜索所需的内容,搜索引擎通过关键词实现内容的索引和排序的建立。潘某人SEO常用的选词方法分享给大家。

    189
    • SEO
    • 关键词
    • 选词
  • 百度不收录原因分析

    百度不收录原因

    百度不收录原因分析,目前百度Spider抓取新链接的途径有两个,一是主动出击发现抓取,二就是从百度站长平台的链接提交工具中获取数据,其中通过主动推送功能“收”上来的数据最受百度Spider的欢迎。

    1108
    • 百度不收录原因
  • 移动端适配的几种实现方式

    移动端适配

    移动端适配的几种实现方式,rem布局、flex布局、百分比布局、字体适配、vm布局。纯CSS的相对单位vw,vh,它们相对的是终端视口,视口(移动端你就可以当成屏幕就好啦)的宽为100vw,高为100vh。使用起来很简单

    13861
    • 移动端适配
  • 黑帽和白帽SEO区别

    黑帽和白帽seo

    黑帽和白帽SEO区别,白帽SEO通常需要时间的积累,注重长远的利益,关键词排名做上去之后不容易掉排名。

    799
    • 黑帽和白帽seo
  • 网站采集对seo优化有哪些影响

    采集对于SEO的影响

    网站采集对seo优化有哪些影响,百度有飓风算法就是针对于网站内容采集的。那么我们作为站长应该是如何采集文章效果号,有效提高我们网站的内容建设。

    1800
    • 采集对于SEO的影响
  • 烽火算法持续升级,控制回退按钮失效问题

    烽火算法持续,退按钮失效

    烽火算法解析,2021年8月百度搜索引擎对于烽火算法进行了升级,此次升级主要是打击移动端退回按钮失效问题。上一个版本的烽火算法2.0更新于2017年2月,严惩“窃取用户数据”和“恶意劫持”的行为:未经用户允许恶意窃取用户手机号码等隐私数据的行为和恶意劫持百度流量的行为。

    834
    • 烽火算法持续
    • 退按钮失效
  • SEO如何正确的判断网站关键词流量

    关键词流量,SEO优化,

    大家流量统计会用什么根据呢,百度统计?相信很多站点的流量统计都是按照百度统计来计算,但是对于SEO优化来说是远远不够的。个人认为百度统计并不是非常适用于SEO优化效果的判定,对于百度SEO优化效果推荐大家使用百度搜索资源平台的中流量与关键词工具,比起百度统计更加适用。

    679
    • 关键词流量
    • SEO优化
  • 【必看】设置死链的秘诀!

    如何设置死链,404,seo

    死链相信大家都不陌生,但是你知道不及时处理死链对于SEO优化会有多大的影响嘛?今天就来普及下死链处理时的注意事项。

    395
    • 如何设置死链
    • 404
    • seo
  • 如何屏蔽某些页面的抓取,但是让页面中链接正常抓取

    meta标签屏蔽页面抓取

    如何屏蔽某些页面的抓取,但是让页面中链接正常抓取,对于这种情况,使用meta标签来进行屏蔽页面的抓取,可以变得更加的有效。相比常用的robots文件屏蔽,或者nofollow标签屏蔽的实用性更加的广。

    2675
    • meta标签屏蔽页面抓取
  • TF-IDF算法、关键词的形成条件

    成为关键词的条件

    说到SEO优化,那么第一次反应就是关键词的排名。很多人对于关键词的认知就是我在TDK中突出的词,或者把一个词在文章中突出重复,提升这个词的密度就可以让搜索引擎认为这个词是这个页面的关键词,然后一个词是否能成为关键词,并不是简单的重复就可以实现的,更多的是参考TF-IDF算法值来确定一个词是否成为关键词。

    1460
    • 成为关键词的条件
  • SimHash算法,关键词堆砌打击

    SimHash算法

    Simhash算法又被SEO站长们成为关键词匹配算法,当用户搜索一个关键词的时候,会出现相关的网站进行展现,但是前些年有个别站长发现关键词密度越高排名越好,这是搜索引擎前期的漏洞,Simhash算法(也成分词匹配算法)对关键词堆砌起到了决定性的打击,

    2261
    • SimHash算法
  • SEO已死?还是你没搞懂SEO

    SEO已死,

    SEO还值得做吗?9成以上的站点的SEO优化基本不会有很好的效果,基本都是已失败告终,你知道为什么吗?

    452
    • SEO已死
  • 百度原创星火计划是什么

    星火计划

    百度原创星火计划(又称伪原创的算法)是在,百度搜索团队首次表示,正在设计一套较完善的原创识别算法,并提出了互联网生态的项目课题,是为了解决原创内容的搜索排名问题。

    1037
    • 星火计划
  • 关键词难易度评估方法

    关键词难度评估

    选好关键词是SEO优化的关键因素,关键词的质量可以决定搜索量、排名、以及转化等。关键词是网站和搜索引擎和用户三者衔接的桥梁。关键词的选择充满了奥秘,简单的讲我们需要考虑这个关键词的搜索量毕竟没有流量的关键词排名再高也没用,其次关键词的排名对于自己站点的难易程度,以及最关键的流量以及转化的平衡点的把握。

    608
    • 关键词难度评估
  • 百度信风算法

    百度信风算法,翻页诱导

    百度信风算法是打击翻页诱行为的算法, 是为了防止站点通过利用翻页进行诱导,从而保护用户的浏览体验。

    1555
    • 百度信风算法
    • 翻页诱导
-- 这已经是底线了,看看别的把! --