收下这份防爬虫的策略

常见的防爬虫策略一般有 User-Agent检测、IP限制、验证码、动态页面生成、频率限制、动态URL参数等,一些网站会采用更高级的反爬虫技术来识别和阻止爬虫的访问。但是这些技术各有各的缺点,在实际操作中并不能获得很好的效果。

一劳永逸的方法

对于防爬并没有一劳永逸的方法,只要内容是可以被访问的,那么就有可能被爬取;是否能勾防住,最终就是一场攻防的战斗,看哪一方技术更胜一筹。今天潘某人SEO突然灵光乍现,突然想到一个防爬虫的方案,在这里分享给大家,当然也不是专业做这个的,有不妥之处欢迎大家指正,铺垫比较长一定看到最后,希望可以帮助到你。

防爬的关键在哪里

大家觉得防爬的关键是什么呢?潘某人SEO认为放爬虫的关键在于如何快速的区分正常用户和爬虫,精准快速的识别封禁恶意访问,同时不让爬虫知道防爬的实现方法。常见的很多方案,比如限制访问频次、ip限制等方法,如果爬虫使用代理分散到海量ip分散式爬取就变得无可奈何了。

防爬方案

其实防爬最好的方法就是在网站中只展示部分内容,对于正常的获取信息的方法肯定是通过站内搜索实现,应该很少有人顺着页面浏览吧。只要将url做到无序并且不降所有内容列举出来就是最简单的方法,具体可以参照潘某人SEO之前的文章《网站URL设计你做对了吗? 》。

但是对于网站内容板块丰富内容入口较多的网站,爬虫依然可以通过有限的入口,顺着页面的内链,不断的爬取依然可以恶意爬取到大量有价值的内容。
下面开始今天的正题,分享一份非常规的防爬虫的策略,今天分享放爬虫方案更多的在方法上而不是技术上。

区分爬虫和访客

既然网络安全上可以使用蜜罐技术,那为什么我们不能设置一点陷阱给这些恶意爬虫呢!
切入点就是爬虫和用户的区别,人类访问一个页面是要眼睛看见了控制手点击进入页面,所以可以尝试设置一些人眼看不到但是爬虫可以获取到的链接。
元素尺寸:我们可以把一个元素的尺寸设置为0,那么用户看不到此元素,更加不可能可以点击访问到此元素上的超链接,并且为了防止被识别出来,这个链接可以正常加载内容,并且url地址也和正常内容的的链接相似,并且链接地址不能是恒定,降低被识别的可能性,并且所处元素的类型和位置可以变化。
浏览器视界:如果有些爬虫不抓取零尺寸的元素链接,那么上面的方法就失灵了。这个时候不妨试试,元素尺寸正常,但是定位到浏览器视界外。
元素遮挡:或者说我们可以用其他的元素遮挡住带有陷阱链接的元素。当然方法有很多,就看你的脑洞有多大了。
这里面的重点是,链接地址要正常并且具有不可预测性,同时链接所处的位置不能恒定,并且链接访问时可以正常访问内容。潘某人SEO认为列表页面是爬虫抓取的重灾区,那么在列表里的数据里下套效果会更好,并且不能恒定在某一条数据,并且对列表处理的样式和脚本记得混淆加密下,同时对所有的元素加上一些随机的样式名,发挥你的想象,搞得越乱越好。
不仅仅要有位置的随机性,还可以设置多个陷阱,多种方式的陷阱。

如何生成链接

链接最关键的一点要和正常的内容链接相似,不要有明显的区别,同时链接的变化有不可预测性。实现方式有很多很多,但是记得考虑实践性能等因素。
分享一个简单的做法,可以生成几十上百条链接具体数量结合实际,然后每个页面访问的时候,随机选取几条返回到前端使用。
然后链接可以过一段时间重新生成,或者链接被访问一定次数就作废并重新生成一条链接。

封禁方式

对于爬虫的的封禁方式,别看前段多么多花活,后段就简单多了,只要判定下哪些链接是事先设定的诱饵链接,然后对ip进行封禁,但是要注意诱饵链接也给返回点正常的页面,否则很明显当问到这个页面就被封,那么爬虫就可以轻而易举避开,导致这个诱饵链接立志失效,并且被分析出前端陷阱所在的位置。
Ip封禁的时候,如果是集中在一个网段的,直接封网段,同时如果是国内ip的那么不嫌麻烦可以请他喝茶,但是这种比较傻的人也没啥威胁性。
如果需要更好的效果,那么还可以结合上其它的反爬技术,技术越多越杂,逮到的几率就越高。大家如果有更好的方案可以在评论区探讨下。

SEO慎用反爬

如果站点内容要做SEO优化,那么反爬技术要慎用,以免误伤搜索引擎蜘蛛。不过艺高人胆大的可以将搜索引擎蜘蛛ip段添加到白名单,不过么哪天ip段更新了,那就有点尴尬了。
或者说也可以对有爬虫倾向的ip反查解析信息来判断是否是蜘蛛,不过有些搜索引擎的ip段并不支持反查,并且这个对于应用的稳定性和性能会有较大的不确定性。

终极武器

如果最终还是成功防住,这个时候就要使用终极武器了,跳出技术之外了,不管你爬起来多溜都得灰溜溜败下阵来。
拿起法律的武器捍卫自己最后的尊严,不管是爬虫和抄袭都是侵犯著作权的行为。著作权的获得在你创作完成那一刻就自动获得。
很多站点爬取或者抄袭了别人的原创内容,会注明来源于互联网如有侵权就联系删除,这个其实就是一句废话,一点都不妨碍他侵权责任的认定。即使是为原创同样是侵权了,侵犯了著作权中的改编权。
著作权登记
所以大家要做的是做好规划,让著作权的认证更加的方便,起诉对方那么就有举证的责任。所以,如果内容的商业价值比较高的,一定先申请了著作权登记之后在进行内容的发布,因为在没有权威证据下,只能看谁最先发布就拥有著作权。如上图所示,可以前往中国版权保护中心进行作品著作权登记。
对于不想登记著作权的情况,我可以可以选择一些较大平台或者行业内知名平台进行发布,自己站点的发布时间作为证据的可信度是不足的,最简单的方法大家可以先在公众号及新媒体平台进行发布。
只要我们做到著作权的认定没有争议的前提下,那么主动权就在我们手里,对于抄袭或者爬取这些行为,可以待他们进行商用,获取的商业利益越大,你所能追偿的金额就越好,甚至你还可以等他发现壮大之后秋后算账。
当然算账前不要惊动对方,一定先做好对方侵权行为证据的公正,这样即使删了也没用,当然专业的事交给专业的律师来。快去分享给你有需要的小伙伴吧!

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seozhishi/1064pachong

相关文章

  • 搜索引擎蜘蛛爬虫名大全

    搜索蜘蛛大全

    对于seo们清楚掌握主流搜索引擎的爬虫名称十分的关键,掌握各大搜索引擎蜘蛛爬虫,对我们开展网站SEO优化具有挺大作用;作者搜集了各大搜索引擎的蜘蛛爬虫UA,便于你需要时查看。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2245
    • 搜索蜘蛛大全
  • 如何防止网站被爬虫恶意抓取

    原创保护,爬虫屏蔽

    对于SEO优化来说最讨厌的就是抄袭行为,而爬虫技术则是抄袭手段的升级版,通过一个规则去全网爬取内容进行发布。将抄袭实现了自动化,各个站点面对这种行为也是无可奈何。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1697
    • 原创保护
    • 爬虫屏蔽
  • 百度爬虫工作原理

    百度蜘蛛原理,抓取频次

    百度爬虫是如何工作的,如何才能提升网站的抓取频次呢?抓取频次的影响因素有哪些?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1502
    • 百度蜘蛛原理
    • 抓取频次
  • 如何修改浏览器User-Agent

    User-Agent

    演示如何修改User-Agent,通过修改HTTP请求头,我们可以实现浏览不同设备下的网站的展示内容。如何通过修改浏览器User-Agent去访问网页,学会修改浏览器user-agent之后,就可以访问站点的爬虫页。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2394
    • User-Agent
  • 原创内容如何保护,防止被抄袭爬取

    原创保护,防止抄袭爬取

    如今搜索引发展趋势是内容为王,想要获得好的排名那么优质得内容是必不可少的。面对无数的抄袭者我们如何保护自己不被抄袭、页面被复制、防止爬虫爬取。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1487
    • 原创保护
    • 防止抄袭爬取
  • 如何鉴别真假蜘蛛,代码自动化

    蜘蛛鉴别,假爬虫屏蔽

    如何使用代码自动化的识别蜘蛛的真实性,防止被假蜘蛛抓取网站内容。分享一个通过代码自动化鉴别屏蔽加搜索引擎爬虫的思路。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1722
    • 蜘蛛鉴别
    • 假爬虫屏蔽
  • 搜索引擎网页质量判定的标准

    搜索引擎,网页质量

    搜索引擎的根本是什么,是内容是对于用户搜索需求满足,这是搜索引擎最根本的逻辑,后续的一切也都是根据这个方向展开的。根据《百度搜索引擎网页质量白皮书》,站长们在百度搜索引擎优化中如何才能输出高质量内容呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 893
    • 搜索引擎
    • 网页质量
  • 搜狗一直不收录怎么办

    搜狗不收录

    现在新站收录各大搜索引擎越来越难,主要是因为一方面互联网的飞速发展,站点的数量也是指数级别的递增,所以最不缺的就是站点。缺少的是有价值的站点,由于网站数量的庞大,抓取站点需要的资源也越来越大,对于搜索引擎加大对于站点的筛选,选择有价值的站点去优先抓取,显得非常的合理。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1222
    • 搜狗不收录
  • 百度蓝天算法2.0解析,构造目录行为打击

    构造目录,百度蓝天算法

    百度蓝天算法打击什么行为呢?解读下蓝天算法2.0会带来什么影响,算法中的针对关键点是构造目录。应该如何应对呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1783
    • 构造目录
    • 百度蓝天算法
  • cms是什么意思

    cms系统,WordPress

    CMS是Content Management System的缩写,意为"内容管理系统"。 常见的CMS系统主要包括:帝国cms、织梦cms、phpcms、WordPress、Zblog等博客系统。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1120
    • cms系统
    • WordPress
  • 如何做好网站中期优化工作?

    网站中期优化

    如何做好网站中期优化工作?当我们的网站排在前20名时,这个时间也是网站的关键优化时期,就像孩子已经达到了同一个发展阶段。您能否排在第一位,看看您想要如何工作?首先,让我们把它分成三点。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1457
    • 网站中期优化
  • wordpress建站怎么样,适合SEO优化吗

    wordpress建站

    wordpress建站是非常不错的,非常使用于新手,可以不写一句代码,快速的搭建属于自己的一个站点,并且wordpress拥有大量的模板插件,不但可以满足美观的展示效果,大量的插件支持也可以满足基本的SEO优化需求。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1775
    • wordpress建站
  • 突然发现大多数网站应用都不堪一击

    并发测试,攻击防御

    相信很多人都听说过网络攻击,有时候商战就会采用最朴实无华的下三滥手段,但是别慌对于大多数站点来说根本没有攻击的价值,听着有点可怜哈哈哈。毕竟大规模的DDos或CC攻击也是挺费资源挺费钱的,但是最近潘某人SEO突然意识到一个可怕的事实,大多数网站真的是不堪一击,没有任何的防御,基础的防御都没有,攻击者可以零成本瞬间使网站或应用宕机。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 249
    • 并发测试
    • 攻击防御
  • 老域名建站对seo真的有好处吗

    老域名建站,seo优化,新站考核期

    很多站点的时候会选用权重高的老域名,可以获得更好的效果,但是事实真的是这样吗?老域名建站大部分的情况下不但没有正向作用,还会有负面的作用,那么老域名建站需要注意哪些方面呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1155
    • 老域名建站
    • seo优化
    • 新站考核期
  • 新站收录与老站收录的区别

    新站收录,老站收录,seo优化

    导致网站不收录的原因有很多,想要解决收录问题,那么首先需要找到站点不收录的原因。但是很多站点在寻找原因的时候第一个方向就错了,对于老站和新站不收录的原因是有很大区别的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1253
    • 新站收录
    • 老站收录
    • seo优化
  • SEO如何处理过期或失效页面如何处理

    过期失效页面处理

    在网站优化中我们遇到这些情况,有的页面是具有时效性的比如电商之类的网站。商品交易完成之后,商品之后不再出售了,那么这个页面其实算是是个过期页面,对于这种页面是具有一定流量的,如果我们删除这个页面那么其实是有一定损失的,对于这类过期页面我们可以用以下方法处理。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2857
    • 过期失效页面处理
  • 百度移动适配工具如何使用

    移动适配工具

    百度移动适配工具如何使用?百度移动搜索提供“移动适配”服务,如果您同时拥有PC站和手机站,且二者能够在内容上对应,即主体内容完全相同,您可以通过移动适配工具进行对应关系提交。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2443
    • 移动适配工具
  • 百度如何提交链接,快速收录

    seo链接提交,如何加快收录

    百度的4种链接提交方式的介绍,他们之间的区别,以及各自的特点,对于seo优化用哪一种提交方式可以花更少的时间,但是可以获得更快的收录速度,提高推送效率,增加网站的收录总数。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 8123
    • seo链接提交
    • 如何加快收录