内容防抓取原创保护的方法

​站点的内容经常被恶意采集爬取,辛辛苦苦码的原创内容被人轻而易举的强取豪夺,被采集可以说是另站长们最痛疼的事情之一了,今天潘某人SEO就与大家分享若干方法,期望可以对大家有帮助。

抓取采集的特点

首先我们需要总结出采集抓取行为的特点才能更好的对症下药。恶意采集的危害极大,站点必须快去识别并封禁。采集行为的主要特别潘某人SEO认为主要的特征有:

  • 同ip短时间内大量访问网站资源
  • 同ip网段爬取爬取网站资源,各个ip爬取的量不大,容易被忽视
  • 能够访问人眼无法看到的链接入口
  • 页面停留时间短,无页面操作

鉴别异常ip

学会如何鉴别异常ip就可以组织大部分的采集抓取行为,但是这里有个重点,也是需要我们谨慎处理的,那就是区分开搜索引擎和恶意爬虫。
在技术上搜索引擎和采集爬取的恶意行为都是通过爬虫进行的,如果不做好鉴别容易对搜索引擎完成误伤导致对SEO优化产生影响。

建立ip白名单

需要建立ip白名单,在此名单的ip需要不受任何约束的可以访问站点的资源。而这类ip指的是站点需要优化的搜索引擎的爬取ip地址。
大家可以通过官方发布的爬虫ip网段进行添加,但是这种方法无法获取到搜索的ip,甚至有的搜索引擎是没有公布爬虫的ip网段。但这也是有解决方案的,可以在后端添加一个ua获取的功能,通过获取访问者客户端的request信息的user-agent,去匹配各大搜索引擎公布的搜索引擎的UA,将符合的ip添加相关记录到网站后台。
内容防抓取原创保护的方法
经过半个月的爬取,搜索引擎蜘蛛的所有的网段几乎都会访问过站点。但是需要考虑到很多恶意蜘蛛会仿冒搜索引擎蜘蛛的ua,因此这些ip需要人工去确认真实性,可以通过官方提供的ip反查方式去确认,确保加入白名单的ip网段是正确的。

截获异常请求方法

对于正常的用户通过浏览器网页访问只能发起get请求,搜索引擎蜘蛛也只会发起get请求。因此,只要是正常的网页有ip发起非get请求的,应该对其直接禁封。很多恶意蜘蛛或者是攻击者为了效率,会先发送head请求来确认页面的可访问性。
经过以上的处理,基本可以鉴别出真假蜘蛛ip,一旦建立了完整的白名单之后,就可以正式开始布局,当然搜索引擎的网段有一定程度会有变化,所以要定期维护好ip白名单。

蜜罐布置

上面讲到了爬虫和人的访问行为特点上有区别的,我们可以给页面上添加一点蜜罐也就是陷阱,去等爬虫掉入我们布置的陷阱残酷身份。
方法很简单,只要在高频关键页面比如页面的foot位置,或者选择一个可以被大多数页面都加载到的位置添加一个像素大小为0的div并且放置一个入口链接,并且位置不容易点击的。对于正常用户,不可能看到,也就不可能点击访问到,也就是说访问此页面的必然是爬虫,一旦识别并且不是白名单直接秒封ip,为了后期维护的方便最高添加上后台记录,方便筛查。

人工采集的屏蔽

这种的危害不是很大,不一定要去做屏蔽,如果要屏蔽也有很简单的做法,常见的方法有屏蔽页面的复制功能,但只能屏蔽掉小白。一但打开调试窗口,或者禁用js就无法起到效果。
不如大方点允许去复制,但是在页面添加复制触发一个统计事件,向后端发送客户端复制内容的字数,以及在当前ip下在多个个页面进行的复制了操作,适当的允许复制有利于提升用户体验。当复制行为触发预设值直接屏蔽ip。

今天分享就到这里了,后面有更好的方法在做分享。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seozhishi/986baohu

相关文章

  • 网站TDK常规写法

    description描述标签,keywords标签,title标签

    本段文字讲述 title标题标签 、keywords关键词标签 、 description描述标签 该如何撰写以及所需注意事项。TDK最重要的一条就是要与文章内容高度相关,而不是想写什么就写什

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1767
    • description描述标签
    • keywords标签
    • title标签
  • HillTop谷歌排名算法

    HillTop算法

    HillTop算法可以有效的屏蔽垃圾低质量外链,防止外链作弊。其实HillTop算法的指导思想和PageRank的是一致的,都是通过网页被链接的数量和质量来确定搜索结果的排序权重。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2621
    • HillTop算法
  • 出图率提升网站点击率关键

    出图率,网站点击率

    但是在同一页面可以展示的,关键词的飘红程度不会有很大的差距,毕竟关键不飘红也不可能有展示的机会。所以标题及摘要显示的内容对于用户的吸引力,更为的关键。出图率是更为关键的,对提升点击率。图片和文字对于人视觉上的吸引力,图片是远高于文字的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1018
    • 出图率
    • 网站点击率
  • 百度落地页时间因子什么作用

    如何保护原创内容,百度时间因子

    如果你是一个SEO优化人员但是不知道百度着陆页时间因子,但是绝对是一大损失,百度时间因子可以很好保护中小站点的原创内容,保护站点的权益。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3171
    • 如何保护原创内容
    • 百度时间因子
  • 被过度看重的权重与流量,优化效果如何衡量

    权重与流量,优化效果

    很多站长都是以权重来衡量网站的优化效果,权重代表着流量的级别,大致上是一个正比关系。但是其实权重流量衡量优化效果是不科学的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1183
    • 权重与流量
    • 优化效果
  • wordpress建站怎么样,适合SEO优化吗

    wordpress建站

    wordpress建站是非常不错的,非常使用于新手,可以不写一句代码,快速的搭建属于自己的一个站点,并且wordpress拥有大量的模板插件,不但可以满足美观的展示效果,大量的插件支持也可以满足基本的SEO优化需求。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1779
    • wordpress建站
  • 速查站点违规低质页面

    低质页面,百度搜索

    23年8月底,百度搜索资源平台发布了百度搜索违规低质页面问题说明,将加强对于违规和低质页面的清理,速度看看你的站点在此之列吗。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1197
    • 低质页面
    • 百度搜索
  • 图片懒加载对于SEO优化有影响吗?

    懒加载,延迟加载,seo优化

    网站图片使用懒加载也就是延迟加载技术,对于SEO优化会有不良的负面影响吗?对于图片的延迟加载我们应该如何去看待处理,才能做到兼顾网站的加载速度以及SEO优化的效果呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2193
    • 懒加载
    • 延迟加载
    • seo优化
  • 百度索引量变化追查投诉方法

    百度索引量

    当百度索引量发生大幅度下跌时,如何进行原因的筛选来确定是正常波动,还是异常波动,及索引量下跌原因的排查方法及解决方案。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1440
    • 百度索引量
  • 网站优化中如何做好图片的优化

    网站优化,图片优化,alt标签

    网站优化中图片优化你做对了吗,很多站点忽视了页面图片的优化,这会让你损失点不少流量,如果你还没有意识到,容潘某人SEO为你细细道来。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 995
    • 网站优化
    • 图片优化
    • alt标签
  • 站内SEO图片优化技巧

    站内SEO图片优化

    网站内部会出现大量的图片内容,发现搜索引擎对于图片的识别是不太完善的,所以做好图片SEO优化非常关键了。站内SEO图片优化主要是给搜索引擎留下好印象,让它能够顺利的爬取网站链接,收录网站页面。小编认为图片SEO优化对于网站整体的排名还是很有影响的,下面来看看具体内容:

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1407
    • 站内SEO图片优化
  • alternate和Canonical标签防止重复收录分散权重

    alternate标签,Canonical标签,重复收录

    alternate和Canonical标签有什么作用,我们可以正确使用这两个标签,解决重复页面,以及移动端和PC端页面的对应关系的适配,可以更好防止出现重复页面的收录,有效的解决权重分散问题。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 4420
    • alternate标签
    • Canonical标签
    • 重复收录
  • 什么是网站权重,如何快速提升

    提升权重,

    相信SEO优化人员都是非常关注自己站点权重,更甚者有些公司招聘考核都是按照权重来的,对于这种行为我只能说非常的不专业。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1173
    • 提升权重
  • 如何识别百度蜘蛛

    百度蜘蛛辨别

    如何识别百度蜘蛛,百度蜘蛛对于站长来说可谓上宾,可是我们曾经遇到站长这样提问:我们如何判断疯狂抓我们网站内容的蜘蛛是不是百度的?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1601
    • 百度蜘蛛辨别
  • 百度绿萝算法打击哪些行为

    绿萝算法

    百度绿萝算法解读,绿萝算法是一种为了打击通过买卖链接干扰搜索引擎算法获得排名的行为而设计的,主要为了保证搜索排名的公平性,保护真正有价值内容获得更高的流量,保障了搜索引擎生态的健康发展。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1832
    • 绿萝算法
  • HTTP和HTTPS对于SEO优化有影响吗

    HTTP和HTTPS,SEO优化

    HTTP和HTTPS对于SEO优化有影响吗?这应该是很多人会有疑虑的,由于很多老站点都是http协议的,会纠结https对于seo优化会更加友好吗?在网站是否升级https的问题上犹豫不觉着。结论是有条件升级https的还是尽可能升级。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1001
    • HTTP和HTTPS
    • SEO优化
  • 带Nofollow标签的外链有用吗

    Nofollow标签,外链

    站长的任何操作都是无法干预搜索引擎最终的决定。即使外链上加了nofollow标签,蜘蛛依然会去抓取这个链接。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1796
    • Nofollow标签
    • 外链
  • SEO网站内容一直不收录原因及解决方案

    不收录原因,SEO

    ​不收录原因及解决方案,自从2022年开始普遍可以感受到网站收录难、收录周期长。可以说让众多SEO从业者游走在失业的边缘。影响网站收录的原因很多,比如站点违规降权等因素,但是对于大多数的站点更多的还是由于内容的问题导致的收录问题。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 6327
    • 不收录原因
    • SEO