首页 >  SEO >  SEO心得 >  正文

真假蜘蛛ip识别

 作者:潘某人SEO
1169

作为一个合格的SEO不仅仅是一个内容优化的高手,技术层面也是需要一两把刷子的。就比如如何分别真假搜索引擎蜘蛛就是一个比较重要也是比较实用的技能。相信大家都会去管不住网站的抓取频次,但是大多数人还是只是从站长后台去看给到的一个抓取频次。但是其实这个数据不是很稳定,而且这个工具经常出问题,对于抓取频次比较的网站,可能都看不到这一个模块的数据,并且对于搜索引擎抓取了哪些页面这是这个工具无法看到的。

因此,对于日常的SEO优化来说学会如何的通过网站日志去查看日志,对于网站日志的分析还是比较复杂,之后再去具体的探讨。今天主要是讲真假蜘蛛ip的识别方法,不管是搜索引擎的蜘蛛,还是假蜘蛛,其实都是网络爬虫。原理上是一样的,只是用途不一样,我们把冒充搜索引的蜘蛛称为假蜘蛛。


为什么有假蜘蛛

这类假蜘蛛的目的,主要就是为了爬取网站的内容,然后为己所用。简单的说就是抄袭转载网页内容,只是把传统的手动方式改成了程序的自动处理。对于这类假蜘蛛它会把自己爬虫的user-agent伪装成和百度一样的,为了就是不被站长们发现屏蔽,达到长期的潜伏着爬取内容。

对于SEO来说内容的稀缺性很重要,如果自己的原创内容被多处抄袭转载,更甚至抄袭者比你先收录,那么对于自己的站点优化是非常的不利的。


如何识别真假蜘蛛

其实发现真假蜘蛛很简单,首先我们需要了解各大搜索引擎蜘蛛名称,比如百度蜘蛛为“baiduspider”。我们就在当天的网站日志中搜索这个关键字,找出有多少条结果。然后对比站长工具中的抓取频次,如果两者的数据差异很大,这个时候我们就需要进一步的去排查了,抓取次数相差很大绝对是由假蜘蛛。

然后我们就要去锁定哪些ip是有异常的,一般来说搜索引擎的蜘蛛不会集中在一个时间段去抓取内容,因此为了更好的及时发展新内容,抓取的时间段是会比较分散的。如果某一个ip会集中的大量抓取页面,那么我们就要重点排查这个IP了。

这种方法操作起来还是比较复杂的,对于日志比较大的网站就不会合适了。更加科学的方法是,写一个程序列出以各个搜索引擎user-agent名称请求的ip,同时需要取到每个ip的访问次数,这样一方面我们可以结合搜索引擎公布的ip段,以及我们能自己排查确认的搜索引擎ip,一排除就可以非常容易的找出有问题的IP。

最后一步就是屏蔽有问题的ip,毕竟于搜索引擎抓取有关,这类ip的封禁我们需要更加的严谨,对于ip需要做一个检验,这个也是非常简单的,使用电脑的cmd中的nslookup命令就可以实现,真假蜘蛛ip的鉴别。

网站日志怎么看

日志大家一定记得按日分割,这边随便拿一个百度蜘蛛的ip做一个演示


真假蜘蛛ip分辨nslookup

习惯用powershell了,用cmd也是一样的没区别的,可以看出如果ip是真的属于搜索引的ip,通过nslookup命令是可以反查到ip对应解析到的域名,这个是绝对可靠的,只要解析的域名是对应搜索引擎的,那就没有问题,如果是假蜘蛛,那么要么是出现解析的域名不对,或这个就是直接超时。

今天讲到的这个需要完全的自动化实现还是存在一定的技术难度的,高度依赖于对日志文件进行操作ip的分离,有兴趣的小伙伴可以公众号,后续会出教程。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seoxinde/582
相关文章
  • 新站需要多久才能有排名

    新站多久有排名

    新站需要多久才能有排名,平均需要6-12个月以上。即使1年以上的页面,获得第一页排名的也只是5%左右,70-80%的新页面过多久都不会有任何排名。

    2459
    • 新站多久有排名
  • 百度如何提交链接,快速收录

    seo链接提交,如何加快收录

    百度的4种链接提交方式的介绍,他们之间的区别,以及各自的特点,对于seo优化用哪一种提交方式可以花更少的时间,但是可以获得更快的收录速度,提高推送效率,增加网站的收录总数。

    7694
    • seo链接提交
    • 如何加快收录
  • 索引量并不能决定流量大小

    索引量

    很多人认为对于网站优化提升索引数量就可以快速的提升网站的流量,因此对于索引的增加情况十分的关注,整体的精力也是放在如何快速大量增加索引数据。

    1182
    • 索引量
  • 怎么提高网站收录速度

    提高收录速度

    怎么提高网站收录速度?网站收录对于网站优化来说是非常重要的,我们当然喜欢是网站的收录速度越快越好,这样对于我们内容的保护起到很重要的作用,因为如果网站收录速度很慢,这样很容易自己的原创内容被人抄袭,别人还先收录了成为了原创而你的成了抄袭这个是很悲催的一件事。

    1632
    • 提高收录速度
  • 网站图片技术优化要点

    网站图片优化

    网站图片技术优化要点,在网站SEO优化工作中,对于图片的优化与调整一直都是工作的重点内容之一。因为图片作为网站内容展示最为直观与形象的表现,是很多文字内容无法完全表达的重要补充。

    2017
    • 网站图片优化
  • 如何实现内容发布自动推送链接

    自动推送链接,api推送,网站收录

    php实现网站内容发布的同时调用百度api接口对网站内容进行自动的同步链接推送。保证网站原创内容的权益。

    1023
    • 自动推送链接
    • api推送
    • 网站收录
  • 一个简单的操作让你的网站安全立马上一个级别

    网站安全,防火墙

    对于SEO来说,网站安全是极为重要,因为网站被黑导致内容被串改成黑产,被搜索引擎降权K站的比比皆是,今天潘某人SEO教大家一个简单的操作就可以把网站的安全提升一个级别。快速检查下自己站点是否正确设置了,虽然不是万无一失,但还是非常有用的。平时还是应该定期排查,及时打补丁,免得追悔莫及!

    528
    • 网站安全
    • 防火墙
  • 【重要】搜索资源平台清退风险资源

    搜索资源平台,seo

    如果站点从事百度SEO优化,那么这条消息必看,避免对日常的优化工作产生影响,未及时处理将直接影响百度搜索资源平台的账户。

    744
    • 搜索资源平台
    • seo
  • 百度绿萝算法打击哪些行为

    绿萝算法

    百度绿萝算法解读,绿萝算法是一种为了打击通过买卖链接干扰搜索引擎算法获得排名的行为而设计的,主要为了保证搜索排名的公平性,保护真正有价值内容获得更高的流量,保障了搜索引擎生态的健康发展。

    1557
    • 绿萝算法
  • 百度搜索引擎蜘蛛喜欢什么样的网站结构

    seo网站结构

    百度搜索引擎蜘蛛喜欢什么样的网站结构?希望能在百度获得好的排名、更多优质低价的流量,这个前提就是网站得有好的结构,百度蜘蛛才能顺利、快速的抓取,也就是说网站结构是关键词排名、链接优化、内容优化的前提。

    1532
    • seo网站结构
  • seo优化前端必须做的那些事

    seo优化,前端

    网站的访问速度会直接影响seo优化的效果,以及站点的转化率;所以网站前端必须对页面资源请求数量,以及资源的大小进行优化,对于一些图片自资源适当的延迟加载,来保证站点的访问速度。

    934
    • seo优化
    • 前端
  • 新网站如何快速提升排名

    如何快速提升排名,新网站SEO优化

    新网站如何SEO优化快速提升排名,需定时更新内容,保证更新内容的质量,内容不仅要做到 原创,更要注重内容的价值,把握SEO优化的核心是什么,不能为了排名而去优化网站,舍本逐末。

    1506
    • 如何快速提升排名
    • 新网站SEO优化
  • 页面收录是一个怎么样的流程

    页面收录,搜索引擎

    搜索引擎收录一个页面的流程是怎么样的呢?网站优化收录是我们每天关注的,但是你是否知道收录的流程呢?了解网页是如何被收录的,把收录的流程了解清楚对于优化工作是有很大的意义的。

    1601
    • 页面收录
    • 搜索引擎
  • SEO优化一定需要做原创内容吗?

    SEO必须原创吗

    随着时代进步SEO优化可以说是越来越难,现在发展方向是内容为王,支持原创内容。那么对于我们网站优化的时候是不是就只有一条路一定要去更新原创内容呢?

    1631
    • SEO必须原创吗
  • 网站被黑常见问题解析

    网站被黑

    网站被黑一直是搜索中非常常见的问题,由此小编梳理了几个网站被黑的问题及处理方法,供大家学习及防护~

    643
    • 网站被黑
  • 搜索引擎抓取系统概述

    搜索引擎,蜘蛛

    今天就给大家简单的介绍一下搜索引擎系统大致工作原理,内容比较多会分几次更新,大家记得关注“潘某人SEO”坐等更新。先给大家介绍下搜索引擎的基础知识:抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程三部分。

    1082
    • 搜索引擎
    • 蜘蛛
  • 百度spider 主要抓取策略类型

    百度spider,抓取

    =Baiduspider在抓取过程中面对的是一个超级复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。

    440
    • 百度spider
    • 抓取
  • 百度抓取频次忽然下降的原因有哪些?

    抓取频次降低的原因

    百度抓取频次忽然下降的原因有哪些?网站抓取频率不知道作为seoer的大家是否有时常的关注,可以说检查我们的网站是否健康,网站的健康程度,关注这些网站上的日常数据也是seo的工作之一,当然看到有一些小伙伴们问道说, 自己的网站突然遇到了网站抓取频率下降这是为什么?

    6937
    • 抓取频次降低的原因
-- 这已经是底线了,看看别的把! --