首页 >  SEO >  SEO知识 >  正文

如何防止网站被爬虫恶意抓取

 作者:潘某人SEO
1397

对于SEO优化来说最讨厌的就是抄袭行为,而爬虫技术则是抄袭手段的升级版,通过一个规则去全网爬取内容进行发布。将抄袭实现了自动化,各个站点面对这种行为也是无可奈何。

防爬虫的几种方法

User-Agent屏蔽

User-Agent也就是http请求头,当客户端访问的时候,服务器就可以接收到访问者的User-Agent。我们可以通过设置屏蔽常见的爬虫的User-Agent名,比如python、robots等。

但是这种方法的弊端很明显首先爬虫的User-Agent可以说是各式各样,只能发现了去屏蔽。并且如果是处于恶意爬取为目的的,基本上会把User-Agent伪装成浏览器,很难去发现。

IP访问频次限制

通过检测ip请求的频次来限制访问,当爬虫进行爬取的时候会在短时间内,在同一个IP下频繁抓取不同的页面。我们可以设置一个阈值,同一个IP在多少时间内访问超过多少个页面就屏蔽当前IP或者通过验证码来验证是否是正常访问。

这种方法的弊端就是,如果采用多个IP并且降低抓取的速度就可以绕过这个防御机制。

机智应对爬虫

想要高准确度识别人和爬虫就要首先找到两者最大的差异;一个明显的差异就是人永远只会去访问眼睛能够看见的东西,而爬虫只要去源码里有的网址都会去访问。

因此我们可以使用一个img标签实现精准的爬虫识别,<a href="防御地址"><img src="图片地址" style="height:1px;width:1px;"></a>。我们可以使用一个1个像素点图片,放在导航栏或者网站页面,颜色就融于这个环境,并且放在角落边;这样人眼首先看不到这张图片,其次非常的小根本不可能点击到<a>标签,不会触发防御地址。

爬虫恶意抓取

然而爬虫则会去抓取页面的所有链接,当然我们不一定必须使用img标签,我们只要放下这种类似的陷阱,一但某个ip触发这个防御地址,就直接秒封当前ip。

特点注意事项

搜索引擎蜘蛛的放开,搜索引擎蜘蛛本质上也是爬虫,用上述的方法的时候都要谨慎的处理。需要做好搜索引擎蜘蛛的鉴别,千万不要把搜索蜘蛛也屏蔽了。

我们可以通过设置白名单,将允许访问的蜘蛛的ip端放入白名单不做屏蔽,千万不要通过User-Agent中蜘蛛的UA名来识别,太容易伪造。不过这种方法的问题就是如果搜索引擎增加新的蜘蛛IP段的时候会误伤。

因此对于,触发机制的User-Agent是搜索引擎蜘蛛的时候,我们需要去执行nslookup反查这个ip看它解析到哪里来鉴别是其真实性。

如果站点的规模很大,有一定知名度实力,对于造成了一个的损失。那么就直接保留日志证据,请对方吃牢饭。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seozhishi/629
相关文章
  • 如何快速提升关键词排名?

    提升关键词排名

    如何快速提升关键词排名?可以从流量冲击、时效性热点内容 、高质量外链、网站整体权重、交换一些友情链接,多角度同时进行有效快速提升关键词排名。

    1277
    • 提升关键词排名
  • seo优化前端必须做的那些事

    seo优化,前端

    网站的访问速度会直接影响seo优化的效果,以及站点的转化率;所以网站前端必须对页面资源请求数量,以及资源的大小进行优化,对于一些图片自资源适当的延迟加载,来保证站点的访问速度。

    988
    • seo优化
    • 前端
  • SEO优化未来发展方向

    SEO优化发展

    SEO优化未来发展方向?如何才能立于不败之地?对于做SEO优化来说,尤其是对于刚入行的优化者来说,会担忧这个行业的发展。入SEO这个行业有没有前途。必然SEO优化是一项充满着挑战变数的工作....

    1908
    • SEO优化发展
  • 被k网站的症状,恢复需要多久,如何操作呢?

    被k网站恢复,降权

    网站被K也是常有的事情,一夜之间前功尽弃的站点屡见不鲜,那么网站被K之后如何处理才能尽快的恢复,站点又如何预防K站的情况发生呢!

    836
    • 被k网站恢复
    • 降权
  • ​什么是链接农场和链接工厂

    链接农场,链接工厂

    ​什么是链接农场和链接工厂,对于SEO优化会有什么影响呢?链接农场是将网站做成一个链接的养殖场,这类站点的特点就是内容质量非常低,甚至内容都很少,页面中存在海量的链接,专门用于搜集网站和交换链接提升PageRank(pr值),而没有或很少有实质性的对用户有用的内容。

    1392
    • 链接农场
    • 链接工厂
  • AI人工智能生成内容用于SEO优化可行吗?

    AI写作,SEO优化,文心一言

    对于SEO来说最大的难点在于内容的创作,首先在长时间的运营之后,SEO们会发现内容创作思路的匮乏,同时内容的创作会消耗大量的人力,AI人工智能的出现可以很好的解决这个问题,AI写作是否可以运用于SEO优化呢?

    673
    • AI写作
    • SEO优化
    • 文心一言
  • 网站旧页面不收录怎么办

    旧文章不收录

    网站旧文章页面不收录问题是每个站点都会遇到问题,每个站点都会有这种情况有的页面从发布至今一直都不收录,还有一部分页面收录之后很快又掉了,对于这些为收录的页面,我们有什么方法可以让他们重新进行收录呢?

    1075
    • 旧文章不收录
  • 网站多久才不算新站

    网站多久才不算新站

    新站的时间大概在3-6个月不等,判断一个网站是否过了考核期,应当有两个标准,一收录,二排名。有收录,过了一半;有排名了,全过。一般而言,首页和内页的考核期也不同。

    2438
    • 网站多久才不算新站
  • 网站SEO过度优化的危害

    SEO过度优化

    过度的SEO优化是很多站点都存在的问题,现在很多站点的SEO优化已经是病态的,一天到晚执着了页面结构、关键词布局、内链、外链、友链以及一些技术手法,而忽视了最关键词的内容的优化

    1267
    • SEO过度优化
  • 内容权威性对网站排名的影响

    权威性与排名

    你知道吗网站内容的权威性一定程度上决定了网站的质量以及排名。你知道什么是权威性呢,我们应该如何去优化网站才可以提网站在领域内的权威性呢?

    980
    • 权威性与排名
  • 网站被镜像,如何向百度反馈?

    网站被镜像

    最近收到不少站长反馈被镜像的问题,网站被镜像后,站点流量、关键词都会受到影响,是很多网站深恶痛绝的现象,站长通过禁止正文被粘贴、禁止镜像站IP都无法彻底杜绝被镜像现象。被镜像该如何维权,学堂君整理以下投诉攻略:

    819
    • 网站被镜像
  • IP地址段表达方式

    IP地址,IP区间段,ip表达式

    ip/8/16/24,IP大家在熟悉不过了,但是大家真的了解IP吗?如何表示一段区间的IP端呢?在网站优化的时候IP的屏蔽是经常需要做的一件事,如果需要屏蔽的IP都在一个段区间内,你还在一个个屏蔽吗,有没有一种快速屏蔽一段IP的方法吗。

    2811
    • IP地址
    • IP区间段
    • ip表达式
  • 建站系统搭建网站利于SEO优化吗?

    建站系统选择

    对于一般的企业建站为了便利性会选择使用建站系统来进行网站的搭建,但是使用建站系统却存在着很多问题,对于业务上或者SEO优化上都有着很大影响。然而对于中小企业使用建站系统模板来搭建系统主要还是成本、维护上上考虑,也是一种迫不得已的选择,那么使用建站系统建站我们需要避免那些问题呢?

    907
    • 建站系统选择
  • 原创内容收录更快吗

    原创内容的收录

    分析下,原创内容在网站优化时对于收录的作用,从深层阐述了,原创性高不一定就可以获得好的收录和排名。对于seo优化来说正真需要的并不是简单的原创,而是需要........

    2651
    • 原创内容的收录
  • 信不信很多连TDK还没有正确掌握

    TDK,seo优化

    在SEO优化领域,TDK(Title/Description/Keywords)是没有优化人员必须知道的,也是必须会掌握的,很多人认为TDK很简单,但是很多人其实根本没有掌握TDK的正确打开方式,潘某人SEO告诉你TDK其实远比你想象的复杂。对于转化有重要影响的title更要关注其完整显示,避免被截断。

    1693
    • TDK
    • seo优化
  • SEO优化心得分享,新人必看!

    SEO优化

    SEO优化心得分享,如果你还是一个SEO小白,那应该可以帮助你更好的理解SEO,会有一定的帮助。友情提示,心理脆弱的小伙伴不建议继续阅读,接下来的内容容易使人破防。

    380
    • SEO优化
  • 如何让搜索引擎识别页面是PC还是移动端

    SEO页面类型识别

    如何让搜索引擎识别页面是PC还是移动端,让蜘蛛有效的识别页面类型,可以使得抓取更有效率,同时给用户在不同设备访问时,给到正确的对应页面,提升用户体验。

    2971
    • SEO页面类型识别
  • 影响网站页面加载速度的原因,如何提升加载速度

    页面加载速度,网站优化

    百度搜索对用户行为的研究表明,页面首屏的加载时间在1秒以内的页面,会带给用户流畅快捷的极速体验,而加载速度过长的页面,会加快用户的流失。谁在影响页面的加载速度?

    664
    • 页面加载速度
    • 网站优化
-- 这已经是底线了,看看别的把! --