收下这份防爬虫的策略

常见的防爬虫策略一般有 User-Agent检测、IP限制、验证码、动态页面生成、频率限制、动态URL参数等,一些网站会采用更高级的反爬虫技术来识别和阻止爬虫的访问。但是这些技术各有各的缺点,在实际操作中并不能获得很好的效果。

一劳永逸的方法

对于防爬并没有一劳永逸的方法,只要内容是可以被访问的,那么就有可能被爬取;是否能勾防住,最终就是一场攻防的战斗,看哪一方技术更胜一筹。今天潘某人SEO突然灵光乍现,突然想到一个防爬虫的方案,在这里分享给大家,当然也不是专业做这个的,有不妥之处欢迎大家指正,铺垫比较长一定看到最后,希望可以帮助到你。

防爬的关键在哪里

大家觉得防爬的关键是什么呢?潘某人SEO认为放爬虫的关键在于如何快速的区分正常用户和爬虫,精准快速的识别封禁恶意访问,同时不让爬虫知道防爬的实现方法。常见的很多方案,比如限制访问频次、ip限制等方法,如果爬虫使用代理分散到海量ip分散式爬取就变得无可奈何了。

防爬方案

其实防爬最好的方法就是在网站中只展示部分内容,对于正常的获取信息的方法肯定是通过站内搜索实现,应该很少有人顺着页面浏览吧。只要将url做到无序并且不降所有内容列举出来就是最简单的方法,具体可以参照潘某人SEO之前的文章《网站URL设计你做对了吗? 》。

但是对于网站内容板块丰富内容入口较多的网站,爬虫依然可以通过有限的入口,顺着页面的内链,不断的爬取依然可以恶意爬取到大量有价值的内容。
下面开始今天的正题,分享一份非常规的防爬虫的策略,今天分享放爬虫方案更多的在方法上而不是技术上。

区分爬虫和访客

既然网络安全上可以使用蜜罐技术,那为什么我们不能设置一点陷阱给这些恶意爬虫呢!
切入点就是爬虫和用户的区别,人类访问一个页面是要眼睛看见了控制手点击进入页面,所以可以尝试设置一些人眼看不到但是爬虫可以获取到的链接。
元素尺寸:我们可以把一个元素的尺寸设置为0,那么用户看不到此元素,更加不可能可以点击访问到此元素上的超链接,并且为了防止被识别出来,这个链接可以正常加载内容,并且url地址也和正常内容的的链接相似,并且链接地址不能是恒定,降低被识别的可能性,并且所处元素的类型和位置可以变化。
浏览器视界:如果有些爬虫不抓取零尺寸的元素链接,那么上面的方法就失灵了。这个时候不妨试试,元素尺寸正常,但是定位到浏览器视界外。
元素遮挡:或者说我们可以用其他的元素遮挡住带有陷阱链接的元素。当然方法有很多,就看你的脑洞有多大了。
这里面的重点是,链接地址要正常并且具有不可预测性,同时链接所处的位置不能恒定,并且链接访问时可以正常访问内容。潘某人SEO认为列表页面是爬虫抓取的重灾区,那么在列表里的数据里下套效果会更好,并且不能恒定在某一条数据,并且对列表处理的样式和脚本记得混淆加密下,同时对所有的元素加上一些随机的样式名,发挥你的想象,搞得越乱越好。
不仅仅要有位置的随机性,还可以设置多个陷阱,多种方式的陷阱。

如何生成链接

链接最关键的一点要和正常的内容链接相似,不要有明显的区别,同时链接的变化有不可预测性。实现方式有很多很多,但是记得考虑实践性能等因素。
分享一个简单的做法,可以生成几十上百条链接具体数量结合实际,然后每个页面访问的时候,随机选取几条返回到前端使用。
然后链接可以过一段时间重新生成,或者链接被访问一定次数就作废并重新生成一条链接。

封禁方式

对于爬虫的的封禁方式,别看前段多么多花活,后段就简单多了,只要判定下哪些链接是事先设定的诱饵链接,然后对ip进行封禁,但是要注意诱饵链接也给返回点正常的页面,否则很明显当问到这个页面就被封,那么爬虫就可以轻而易举避开,导致这个诱饵链接立志失效,并且被分析出前端陷阱所在的位置。
Ip封禁的时候,如果是集中在一个网段的,直接封网段,同时如果是国内ip的那么不嫌麻烦可以请他喝茶,但是这种比较傻的人也没啥威胁性。
如果需要更好的效果,那么还可以结合上其它的反爬技术,技术越多越杂,逮到的几率就越高。大家如果有更好的方案可以在评论区探讨下。

SEO慎用反爬

如果站点内容要做SEO优化,那么反爬技术要慎用,以免误伤搜索引擎蜘蛛。不过艺高人胆大的可以将搜索引擎蜘蛛ip段添加到白名单,不过么哪天ip段更新了,那就有点尴尬了。
或者说也可以对有爬虫倾向的ip反查解析信息来判断是否是蜘蛛,不过有些搜索引擎的ip段并不支持反查,并且这个对于应用的稳定性和性能会有较大的不确定性。

终极武器

如果最终还是成功防住,这个时候就要使用终极武器了,跳出技术之外了,不管你爬起来多溜都得灰溜溜败下阵来。
拿起法律的武器捍卫自己最后的尊严,不管是爬虫和抄袭都是侵犯著作权的行为。著作权的获得在你创作完成那一刻就自动获得。
很多站点爬取或者抄袭了别人的原创内容,会注明来源于互联网如有侵权就联系删除,这个其实就是一句废话,一点都不妨碍他侵权责任的认定。即使是为原创同样是侵权了,侵犯了著作权中的改编权。
著作权登记
所以大家要做的是做好规划,让著作权的认证更加的方便,起诉对方那么就有举证的责任。所以,如果内容的商业价值比较高的,一定先申请了著作权登记之后在进行内容的发布,因为在没有权威证据下,只能看谁最先发布就拥有著作权。如上图所示,可以前往中国版权保护中心进行作品著作权登记。
对于不想登记著作权的情况,我可以可以选择一些较大平台或者行业内知名平台进行发布,自己站点的发布时间作为证据的可信度是不足的,最简单的方法大家可以先在公众号及新媒体平台进行发布。
只要我们做到著作权的认定没有争议的前提下,那么主动权就在我们手里,对于抄袭或者爬取这些行为,可以待他们进行商用,获取的商业利益越大,你所能追偿的金额就越好,甚至你还可以等他发现壮大之后秋后算账。
当然算账前不要惊动对方,一定先做好对方侵权行为证据的公正,这样即使删了也没用,当然专业的事交给专业的律师来。快去分享给你有需要的小伙伴吧!

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seozhishi/1064pachong

相关文章

  • 搜索引擎蜘蛛爬虫名大全

    搜索蜘蛛大全

    对于seo们清楚掌握主流搜索引擎的爬虫名称十分的关键,掌握各大搜索引擎蜘蛛爬虫,对我们开展网站SEO优化具有挺大作用;作者搜集了各大搜索引擎的蜘蛛爬虫UA,便于你需要时查看。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2288
    • 搜索蜘蛛大全
  • 百度爬虫工作原理

    百度蜘蛛原理,抓取频次

    百度爬虫是如何工作的,如何才能提升网站的抓取频次呢?抓取频次的影响因素有哪些?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1528
    • 百度蜘蛛原理
    • 抓取频次
  • 如何防止网站被爬虫恶意抓取

    原创保护,爬虫屏蔽

    对于SEO优化来说最讨厌的就是抄袭行为,而爬虫技术则是抄袭手段的升级版,通过一个规则去全网爬取内容进行发布。将抄袭实现了自动化,各个站点面对这种行为也是无可奈何。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1725
    • 原创保护
    • 爬虫屏蔽
  • 如何鉴别真假蜘蛛,代码自动化

    蜘蛛鉴别,假爬虫屏蔽

    如何使用代码自动化的识别蜘蛛的真实性,防止被假蜘蛛抓取网站内容。分享一个通过代码自动化鉴别屏蔽加搜索引擎爬虫的思路。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1749
    • 蜘蛛鉴别
    • 假爬虫屏蔽
  • 原创内容如何保护,防止被抄袭爬取

    原创保护,防止抄袭爬取

    如今搜索引发展趋势是内容为王,想要获得好的排名那么优质得内容是必不可少的。面对无数的抄袭者我们如何保护自己不被抄袭、页面被复制、防止爬虫爬取。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1515
    • 原创保护
    • 防止抄袭爬取
  • 如何修改浏览器User-Agent

    User-Agent

    演示如何修改User-Agent,通过修改HTTP请求头,我们可以实现浏览不同设备下的网站的展示内容。如何通过修改浏览器User-Agent去访问网页,学会修改浏览器user-agent之后,就可以访问站点的爬虫页。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2417
    • User-Agent
  • 如果你觉得AI对你帮助非常大,那你一定要看完这篇文章

    AI认知吝啬鬼

    现在大家干活、写东西,遇到不懂的,第一反应就是问AI。确实快,几秒钟出结果,省时省力。但你想过没有,如果连思考都省了,最后剩下的是啥?这篇文不打算妖魔化AI,毕竟它真是个好工具。但咱得聊点扎心的:当你习惯了“喂到嘴边”的答案,你的判断力还在吗?为什么很多人觉得AI全对?咱们今天就来扒一扒,怎么在享受便利的同时,别让自己变成只会点头的“接收器”。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 44
    • AI认知吝啬鬼
  • 网站URL后缀:SEO优化的关键细节,还是无效焦虑?

    URL后缀

    网站链接后面到底要不要带“.html”等后缀?这问题估计很多刚接触建站的朋友都纠结过,今天咱就站在搜索引擎优化和实际运营的角度,分析下这个问题。先给个定心丸:对于现在的搜索引擎来说,带不带.html等后缀,对排名的影响直接可以忽略。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 61
    • URL后缀
  • 给网站加上结构化数据,让搜索引擎“爱上你”

    结构化数据,JSONLD

    很多做SEO的朋友,每天盯着关键词排名,发外链、写文章,忙得团团转,结果流量还是上不去。其实,你可能忽略了搜索引擎最需要的东西——“理解”。结构化数据就是给网页贴个“身份证”,告诉搜索引擎你的网站到底是干啥的、作者是准、啥时候更新的。别小看这几行代码,它能直接决定你的网页在搜索结果里长啥样,甚至决定了AI能不能抓取到你。这篇文章,潘某人SEO就带大家把这层窗户纸捅破,看看怎么用技术流手段,低成本撬动大流量。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 86
    • 结构化数据
    • JSONLD
  • 网站URL结尾的斜杠,到底该怎么加?一份SEO角度的实战指南

    seo指南,URL斜杠

    URL结尾的斜杠问题,常被视作技术细节,实则是网站架构规范化的基石。从SEO角度看,`example.com/page`与`example.com/page/`被搜索引擎视为两个独立页面,若同时可访问,将引发重复内容、权重分散等隐患。本文深入解析斜杠背后的服务器逻辑,强调“统一与规范”的核心原则。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 118
    • seo指南
    • URL斜杠
  • AI时代SEO该如何做?

    AI,SEO

    AI搜索的普及让许多SEO从业者陷入流量焦虑,但真正的危机并非技术本身,而是方向的迷失。与其盲目追逐热点或试图与AI比拼内容产量,不如转向AI无法取代的领域:真实经验、深度复盘、原创数据与专业洞察。这些“AI-Proof”内容不仅难以被复制,反而更容易被AI引用为可信来源。与此同时,大量低质站点因无法适应新规则而退出竞争,优质内容的生存空间反而扩大。SEO的未来不在于“被点击”,而在于“被信任”。选对方向,深耕价值,才能在AI时代真正站稳脚跟。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 101
    • AI
    • SEO
  • 突然发现大多数网站应用都不堪一击

    并发测试,攻击防御

    相信很多人都听说过网络攻击,有时候商战就会采用最朴实无华的下三滥手段,但是别慌对于大多数站点来说根本没有攻击的价值,听着有点可怜哈哈哈。毕竟大规模的DDos或CC攻击也是挺费资源挺费钱的,但是最近潘某人SEO突然意识到一个可怕的事实,大多数网站真的是不堪一击,没有任何的防御,基础的防御都没有,攻击者可以零成本瞬间使网站或应用宕机。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 340
    • 并发测试
    • 攻击防御
  • seo必看之一键实现链接推送

    seo,必应

    分享给一个方法,即使不懂技术也能让你轻松实现api推送链接,让你实现使用api接口实现一键提交。学会这个技能,即使没有技术加持,也能让你简单轻松的实现链接的批量推送。近些年来,微软必应(Bing)搜索引擎,微软将必应深度整合到其庞大的产品生态中,形成了强大的流量入口,其效果和流量确实呈现出显著的上升趋势。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 457
    • seo
    • 必应
  • 搜索流量 vs 推荐流量:很多人搞错了关键所在!

    搜索流量,推荐流量

    在内容生态中,搜索流量和推荐流量是两个维度,它们背后的逻辑、用户意图、内容形态,甚至SEO策略,都完全不同。搜索流量:用户主动搜索关键词、明确需求,如“如何做SEO”;内容类型,深度、结构化、信息密度高;长期有效,可积累。推荐流量:平台算法主动推送,被动浏览,娱乐消遣为主,短平快、情绪化、视觉冲击强,短期爆发,易过期。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 574
    • 搜索流量
    • 推荐流量
  • SEO优化做得好,一半功劳是“抄”来的?

    SEO优化

    你是不是也曾为SEO优化头疼不已?看着别人的网站排名飙升,自己的却纹丝不动,焦虑感油然而生。别急,今天潘某人SEO分享一个颠覆你认知的观点:SEO优化最快的成功方式,竟然是“抄袭借鉴”!借鉴成功者经验,相当于站在巨人的肩膀上,直接跳过无效努力,直奔结果。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 395
    • SEO优化
  • SEO原创内容真的正确吗?大多人都搞错了重点!

    SEO原创

    “做SEO,必须原创!”这句话你是不是已经听了无数遍?从搜索引擎官方到SEO大神,都在强调“原创内容有利于排名”。于是,无数人开始熬夜写稿、花钱请写手、甚至用AI批量生成“原创内容”……但结果呢?流量没涨,排名没动,投入的时间和金钱却打了水漂。因为你可能从一开始就搞错了重点——原创 ≠ 有价值,而SEO真正需要的,是价值,不是“原创”这个标签。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 532
    • SEO原创
  • “搜索引擎蜘蛛分权重吗?”——揭秘SEO圈里的重大误区

    蜘蛛,搜索引擎

    在SEO(搜索引擎优化)的世界里,有一句话几乎每个新手都听过:“你这个网站权重太低,蜘蛛都不来爬!”于是很多人开始焦虑:“是不是我网站没权重,搜索引擎蜘蛛根本瞧不上我?”“大站发文章秒收录,我这小站三天都不来爬,是不是被歧视了?”

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 470
    • 蜘蛛
    • 搜索引擎
  • 揭秘搜索引擎蜘蛛IP:如何轻松获取所有搜索引擎蜘蛛IP?

    蜘蛛IP,搜索引擎

    在搜索引擎优化(SEO)的世界中,搜索引擎蜘蛛的IP地址如同“隐形访客”的身份证号码。掌握这些IP不仅能帮助你精准识别真实蜘蛛,还能优化网站抓取策略、过滤垃圾流量,甚至预判网站的收录趋势。那么,如何高效获取并验证这些IP?今天潘某人SEO将为带你深入探索!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 540
    • 蜘蛛IP
    • 搜索引擎
  • SEO已死,是真相还是忽悠?

    SEO已死

    SEO的环境已经经历了巨大的变革,尤其是在短视频内容和AI技术迅速发展的背景下。来越多的用户倾向于通过短视频平台来获取信息。这改变了传统的文本搜索模式。随着AI的发展,搜索引擎能够提供更加精确的答案,有时甚至不需要用户点击进入网站。于是,一些人得出结论:“SEO已死”,但真相真的是如此吗?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 515
    • SEO已死
  • 别再这么使用sitemap,可能正在毁掉你的站点

    sitemap,网站地图

    Sitemap(站点地图)本身是一个强大的工具。它以结构化的XML格式,清晰地列出网站上希望搜索引擎索引的所有重要页面链接。对于大型、结构复杂或新上线的网站,提交Sitemap能显著帮助搜索引擎更快地发现站点的内容。然而,任何工具都有其两面性。Sitemap这把“钥匙”,既能打开搜索引擎友好抓取的大门,也可能为不速之客大开方便之门。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 531
    • sitemap
    • 网站地图