内容防抓取原创保护的方法

​站点的内容经常被恶意采集爬取,辛辛苦苦码的原创内容被人轻而易举的强取豪夺,被采集可以说是另站长们最痛疼的事情之一了,今天潘某人SEO就与大家分享若干方法,期望可以对大家有帮助。

抓取采集的特点

首先我们需要总结出采集抓取行为的特点才能更好的对症下药。恶意采集的危害极大,站点必须快去识别并封禁。采集行为的主要特别潘某人SEO认为主要的特征有:

  • 同ip短时间内大量访问网站资源
  • 同ip网段爬取爬取网站资源,各个ip爬取的量不大,容易被忽视
  • 能够访问人眼无法看到的链接入口
  • 页面停留时间短,无页面操作

鉴别异常ip

学会如何鉴别异常ip就可以组织大部分的采集抓取行为,但是这里有个重点,也是需要我们谨慎处理的,那就是区分开搜索引擎和恶意爬虫。
在技术上搜索引擎和采集爬取的恶意行为都是通过爬虫进行的,如果不做好鉴别容易对搜索引擎完成误伤导致对SEO优化产生影响。

建立ip白名单

需要建立ip白名单,在此名单的ip需要不受任何约束的可以访问站点的资源。而这类ip指的是站点需要优化的搜索引擎的爬取ip地址。
大家可以通过官方发布的爬虫ip网段进行添加,但是这种方法无法获取到搜索的ip,甚至有的搜索引擎是没有公布爬虫的ip网段。但这也是有解决方案的,可以在后端添加一个ua获取的功能,通过获取访问者客户端的request信息的user-agent,去匹配各大搜索引擎公布的搜索引擎的UA,将符合的ip添加相关记录到网站后台。
内容防抓取原创保护的方法
经过半个月的爬取,搜索引擎蜘蛛的所有的网段几乎都会访问过站点。但是需要考虑到很多恶意蜘蛛会仿冒搜索引擎蜘蛛的ua,因此这些ip需要人工去确认真实性,可以通过官方提供的ip反查方式去确认,确保加入白名单的ip网段是正确的。

截获异常请求方法

对于正常的用户通过浏览器网页访问只能发起get请求,搜索引擎蜘蛛也只会发起get请求。因此,只要是正常的网页有ip发起非get请求的,应该对其直接禁封。很多恶意蜘蛛或者是攻击者为了效率,会先发送head请求来确认页面的可访问性。
经过以上的处理,基本可以鉴别出真假蜘蛛ip,一旦建立了完整的白名单之后,就可以正式开始布局,当然搜索引擎的网段有一定程度会有变化,所以要定期维护好ip白名单。

蜜罐布置

上面讲到了爬虫和人的访问行为特点上有区别的,我们可以给页面上添加一点蜜罐也就是陷阱,去等爬虫掉入我们布置的陷阱残酷身份。
方法很简单,只要在高频关键页面比如页面的foot位置,或者选择一个可以被大多数页面都加载到的位置添加一个像素大小为0的div并且放置一个入口链接,并且位置不容易点击的。对于正常用户,不可能看到,也就不可能点击访问到,也就是说访问此页面的必然是爬虫,一旦识别并且不是白名单直接秒封ip,为了后期维护的方便最高添加上后台记录,方便筛查。

人工采集的屏蔽

这种的危害不是很大,不一定要去做屏蔽,如果要屏蔽也有很简单的做法,常见的方法有屏蔽页面的复制功能,但只能屏蔽掉小白。一但打开调试窗口,或者禁用js就无法起到效果。
不如大方点允许去复制,但是在页面添加复制触发一个统计事件,向后端发送客户端复制内容的字数,以及在当前ip下在多个个页面进行的复制了操作,适当的允许复制有利于提升用户体验。当复制行为触发预设值直接屏蔽ip。

今天分享就到这里了,后面有更好的方法在做分享。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seozhishi/986baohu

相关文章

  • 如何做网站SEO诊断?

    SEO诊断,网站优化

    从网站的展现、点击率、关键词相关度,可以更加快速简单有效的诊断出网站的SEO优化效果。网站诊断可以从很多方面出发,可以从页面的规范程度,站点的内容,网站的代码等等各个方面都是决定网站最终优化效果的因素。今天不讲那么多细节性的,就从网站展现排名来诊断网站的优化效果。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1084
    • SEO诊断
    • 网站优化
  • SEO优化快速提升关键词排名

    关键词排名

    对于每一个希望通过搜索引擎优化(SEO)来增加网站曝光率的人来说,如何快速提升网站关键词的排名无疑是最关心的话题。然而,在实际操作中,很多人发现自己长时间的努力并没有带来预期的结果。那么,到底怎样才能有效地提高关键词排名呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 650
    • 关键词排名
  • 网站栏目数量对于权重的影响

    网站栏目,权重,seo

    ​如果您近期正在打算搭建网站,那么看到这篇文章就赶上了。很多站点在网站搭建的时候就为后期的SEO优化埋下了诸多的坑。如网站的栏目结构可以说是重灾区。网站的栏目数量要适当不宜多,对于大多数网站栏目数量控制在3-5左右差不多。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 865
    • 网站栏目
    • 权重
    • seo
  • 带Nofollow标签的外链有用吗

    Nofollow标签,外链

    站长的任何操作都是无法干预搜索引擎最终的决定。即使外链上加了nofollow标签,蜘蛛依然会去抓取这个链接。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1793
    • Nofollow标签
    • 外链
  • 什么是链接农场,及其对于网站的危害

    链接农场,外链

    链接农场对于网站优化的威胁超级大,不但自己不该做,有的时候防不甚防一不小心掉进链接农场,很多时候很多站点做着做着不知不觉就变成链接农场了

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2869
    • 链接农场
    • 外链
  • 跟踪链接导致大量重复页面

    跟踪链接,重复页面

    对网站运营推广的时候我们不得不使用各种跟踪链接达到推广效果的统计作用。但是这类跟踪链接会造成大量的重复页面的出现,导致权重的分散对SEO产生负面的影响,我们如何解决这问题呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1164
    • 跟踪链接
    • 重复页面
  • SEO的优化效果如何检查

    SEO优化效果检查

    SEO优化不仅仅是权重,重点是在你的流量是有价值的可以带来转化的流量及关键词,大家可以参照下本文的SEO优化效果检查有哪些指标。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1869
    • SEO优化效果检查
  • 别再被“网站权重”误导了!别努力错了方向!

    网站权重

    有人把它当成衡量网站质量的标准,有人用它来评估SEO效果,更有甚者,把“权重高低”作为招聘考核的硬性指标。今天与潘某人SEO一起探索“网站权重”的真实面纱——搜索引擎根本不存在所谓的‘权重’!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 488
    • 网站权重
  • 百度收录速度与网站权重的关系

    权重与收录速度

    百度收录速度与网站权重的关系?网站权重越高是不是收录速度就越快,是不是只要网站权重足够高网站内容就可以做到秒收录呢?对于新站来说低权重站点是不是就无法做到内容的快速收录呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1529
    • 权重与收录速度
  • 如何禁止网页内容被复制

    如何禁止网页内容被复制

    现在SEO优化鼓励内容为王,也就是鼓励大家原创。那么问题来了,如果当我们在原创的时候自己的内容却在被别人抄袭,是不是很气人,今天教大家如何屏蔽网页内容的复制。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2172
    • 如何禁止网页内容被复制
  • 百度搜索劲风算法解读

    百度劲风算法上线

    2020年2月27日,百度站长平台发布公告,将于近期上线“劲风算法”,主要打击网站及智能小程序通过恶意构造聚合页面内容来获取搜索排名,获得搜索用户关注等行为。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2369
    • 百度劲风算法上线
  • 如何申请增加百度资源平台提交配额

    api提交,sitemap,百度

    站点没有sitemap权限,api提交额度只有10条,如何申请增加提交配额的方法,如上图所示,是百度搜索资源平台官方提供的配额权限申请的问卷,站点可以通过填写站点信息,以及配额的情况的,对于符合要求的站点会在15个工作日内赋予相应的资源配额。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2073
    • api提交
    • sitemap
    • 百度
  • 原创内容收录排名一定好吗?

    原创内容收录

    可以说现在已经已经进入了内容为王的时代,站点想要流量就必须生产优质内容,逐渐的大家都在进行原创或者为原创,但是很多站点并没有多大的效果,甚至有的站点收录都非常困难。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1224
    • 原创内容收录
  • 手机网站的优化注意事项

    手机网站,移动端优化

    随着智能手机的崛起,移动互联网的占比越来越高,对于部门行业领域移动端已经吊打PC端,比如电商类的站点,大部门的成交都是在移动端完成的。因此,现在开始必须注重移动手机站点的优化。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1369
    • 手机网站
    • 移动端优化
  • 网站一定要定期更新吗?节假日停更对于SEO会有影响吗?

    定期更新,SEO影响

    春节来临大家的站点的节假日会继续正常的更新吗?节假日停止更新对于站点会有不利的影响吗?不知道大家有没有想过这个问题呢?还是说管它怎么样,哪有比我过节重要呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 850
    • 定期更新
    • SEO影响
  • 如何用domian命令查询网站反链数量

    domain命令如何使用,外链反链数如何查询

    很多人会使用domain指令去查询网站的外链数量,更有机构公司把domain值当作外链数量的考核标准,真的是十分荒谬,domian真正的作用是!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 5035
    • domain命令如何使用
    • 外链反链数如何查询
  • 网站标题关键词结构布局

    网站标题布局

    网站标题关键词结构布局,对于网站结构比较复杂的网站,那么为了使得网站结构有一定的条理性,那么这么网站的标题就需要一定的布局。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1569
    • 网站标题布局
  • 为什么大多数站点SEO以失败告终

    SEO失败原因,核心因素

    做SEO优化的站点很多,从事SEO行业的人也不少;但是成功的站点没几个,SEO高手没几个。那么到底是什么原因导致了大多数站点的SEO优化没有效果,都以失败告终了呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1391
    • SEO失败原因
    • 核心因素