首页 >  SEO >  SEO心得 >  正文

真假蜘蛛ip识别

 作者:潘某人SEO
1199

作为一个合格的SEO不仅仅是一个内容优化的高手,技术层面也是需要一两把刷子的。就比如如何分别真假搜索引擎蜘蛛就是一个比较重要也是比较实用的技能。相信大家都会去管不住网站的抓取频次,但是大多数人还是只是从站长后台去看给到的一个抓取频次。但是其实这个数据不是很稳定,而且这个工具经常出问题,对于抓取频次比较的网站,可能都看不到这一个模块的数据,并且对于搜索引擎抓取了哪些页面这是这个工具无法看到的。

因此,对于日常的SEO优化来说学会如何的通过网站日志去查看日志,对于网站日志的分析还是比较复杂,之后再去具体的探讨。今天主要是讲真假蜘蛛ip的识别方法,不管是搜索引擎的蜘蛛,还是假蜘蛛,其实都是网络爬虫。原理上是一样的,只是用途不一样,我们把冒充搜索引的蜘蛛称为假蜘蛛。


为什么有假蜘蛛

这类假蜘蛛的目的,主要就是为了爬取网站的内容,然后为己所用。简单的说就是抄袭转载网页内容,只是把传统的手动方式改成了程序的自动处理。对于这类假蜘蛛它会把自己爬虫的user-agent伪装成和百度一样的,为了就是不被站长们发现屏蔽,达到长期的潜伏着爬取内容。

对于SEO来说内容的稀缺性很重要,如果自己的原创内容被多处抄袭转载,更甚至抄袭者比你先收录,那么对于自己的站点优化是非常的不利的。


如何识别真假蜘蛛

其实发现真假蜘蛛很简单,首先我们需要了解各大搜索引擎蜘蛛名称,比如百度蜘蛛为“baiduspider”。我们就在当天的网站日志中搜索这个关键字,找出有多少条结果。然后对比站长工具中的抓取频次,如果两者的数据差异很大,这个时候我们就需要进一步的去排查了,抓取次数相差很大绝对是由假蜘蛛。

然后我们就要去锁定哪些ip是有异常的,一般来说搜索引擎的蜘蛛不会集中在一个时间段去抓取内容,因此为了更好的及时发展新内容,抓取的时间段是会比较分散的。如果某一个ip会集中的大量抓取页面,那么我们就要重点排查这个IP了。

这种方法操作起来还是比较复杂的,对于日志比较大的网站就不会合适了。更加科学的方法是,写一个程序列出以各个搜索引擎user-agent名称请求的ip,同时需要取到每个ip的访问次数,这样一方面我们可以结合搜索引擎公布的ip段,以及我们能自己排查确认的搜索引擎ip,一排除就可以非常容易的找出有问题的IP。

最后一步就是屏蔽有问题的ip,毕竟于搜索引擎抓取有关,这类ip的封禁我们需要更加的严谨,对于ip需要做一个检验,这个也是非常简单的,使用电脑的cmd中的nslookup命令就可以实现,真假蜘蛛ip的鉴别。

网站日志怎么看

日志大家一定记得按日分割,这边随便拿一个百度蜘蛛的ip做一个演示


真假蜘蛛ip分辨nslookup

习惯用powershell了,用cmd也是一样的没区别的,可以看出如果ip是真的属于搜索引的ip,通过nslookup命令是可以反查到ip对应解析到的域名,这个是绝对可靠的,只要解析的域名是对应搜索引擎的,那就没有问题,如果是假蜘蛛,那么要么是出现解析的域名不对,或这个就是直接超时。

今天讲到的这个需要完全的自动化实现还是存在一定的技术难度的,高度依赖于对日志文件进行操作ip的分离,有兴趣的小伙伴可以公众号,后续会出教程。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seoxinde/582
相关文章
  • SEO优化还值得做吗,为什么没有效果

    SEO优化,自媒体,优化效果

    SEO优化还值得做吗?为什么要继续坚持做SEO优化和为了SEO没效果这两个关键点分析一下。关键点从来不是SEO没有流量,而是你获取不到一个好的效果。

    786
    • SEO优化
    • 自媒体
    • 优化效果
  • 想要做好网站seo优化内容,需要知道这几点

    seo优化,网站内容

    近年来网站seo优化越来越难做了,那是凡事都有双面性,网站seo优化越来越难,那么逐渐的会更多站点及优化人员逐渐的放弃被淘汰,这也正是大家机遇。如今很多人在唱衰seo,从相关的统计数据可以看到搜索引擎的用户量和搜索量依然强劲庞大,虽然说新媒体平台近几年的发展态势迅猛,但是需要知道此类流量性质和搜索引擎还是有很大区别的。

    663
    • seo优化
    • 网站内容
  • SEO优化如何运用好meta标签

    meta标签运用

    在SEO网站优化过程中应该知道网站的三大meta标签的重要性,这三种标签设置的好坏直接影响着网站后期的优化效果。下面就来和大家说说在SEO优化中如何运用meta标签。

    2141
    • meta标签运用
  • 图片懒加载对于SEO优化有影响吗?

    懒加载,延迟加载,seo优化

    网站图片使用懒加载也就是延迟加载技术,对于SEO优化会有不良的负面影响吗?对于图片的延迟加载我们应该如何去看待处理,才能做到兼顾网站的加载速度以及SEO优化的效果呢?

    1863
    • 懒加载
    • 延迟加载
    • seo优化
  • 如何定制百度索引量查看规则

    百度索引规则

    可以通过“*”号自定义规则来查看某些特征集合的页面索引量数据。“*”号放在规则结尾可匹配到包含“/”在内的任意字符串,放在规则其他位置匹配不包含“/”的任意字符串,具体可参考下列示例:

    1897
    • 百度索引规则
  • 索引量波动意味着什么?需要重视吗?

    索引量,流量,seo

    索引量的波动牵动了多少站长心,根据不可靠研究,据说索引量波动得足够猛,可以影响到站长们的心电图。尤其突然的下降,一次性掉了大半年积累到的索引量。那么遇到索引量大幅度波动对于站点意味着什么呢?

    685
    • 索引量
    • 流量
    • seo
  • 移动网页怎么快速排名

    移动排名优化

    移动网页怎么快速排名?从移动网站准备阶断、移动页面细节把握、搜索引擎工具这三方来讲下如何对于移动端的优化。为了让移动页面有较好的收录,在网站准备阶断就要进行考虑。首先,移动网站与pc网站一样,选择简短、易懂、注册年限较长的域名有利于搜索引擎收录。

    1197
    • 移动排名优化
  • 百度spider抓取频次原则及调整方法

    百度spider,抓取频次

    Baiduspider根据上述网站设置的协议对站点页面进行抓取,但是不可能做到对所有站点一视同仁,会综合考虑站点实际情况确定一个抓取配额,每天定量抓取站点内容,即我们常说的抓取频次。那么百度搜索引擎是根据什么指标来确定对一个网站的抓取频次的呢?

    546
    • 百度spider
    • 抓取频次
  • AI人工智能对于SEO优化产生的影响

    AI,SEO优化

    如今,AI人工智能已经渗透到生活工作中的方方面面,应用场景日益丰富,于此同时问题也逐步显现,如隐私保护、社会影响、就业影响等问题,那么人工智能AI对于SEO优化会产生什么样的影响呢? 今天我们就来探索下AI对于SEO会带来什么样的影响,分别从搜索引擎的三方角色进行分析。

    679
    • AI
    • SEO优化
  • 落地页规范之如何正确设置咨询窗口

    咨询窗口,落地页

    带大家深入解读下此次的落地页体验说明对于咨询类功能使用的重点。咨询类功能是站点重要的转化入口,简单的理解就是网页中咨询建议的按钮及在线沟通工具的窗口。​近期百度发布了搜索违规落地页的体验问题说明,主要从pc端移动适配、页面排版布局、交互功能规范,这三方面进行了说明。各个站长还是速度的自查站点是否有违规的行为,又一波考验到来了。

    938
    • 咨询窗口
    • 落地页
  • 外链打击,绿萝算法

    外链,绿萝算法

    请勿在滥发外链了,多年之前已经有了绿萝算法的存在,远离外链中,远离垃圾外链,提升网站内容,健康的发展外链才是长期可以持续的SEO优化手段。

    1709
    • 外链
    • 绿萝算法
  • HTML5标签让你的内容在搜索引擎中脱颖而出

    HTML5,语义化标签

    HTML5标签的正确使用不仅能够提升文章的结构清晰度,还能增强内容的可读性和搜索引擎的友好性。HTML5引入了许多新的语义化标签,这些标签帮助搜索引擎更好地理解网页的结构和内容。

    383
    • HTML5
    • 语义化标签
  • 域名变更对于seo排名的影响

    域名变更,seo排名

    站点在实际运营的过程中,偶尔会因为一些因素需要变更网站的域名的情况,大家都知道网站的一次改版,都可能会对seo产生严重的影响,何况是网站域名的变更,对于seo优化的影响就不言而喻了。

    638
    • 域名变更
    • seo排名
  • 什么是网站的抓取频次

    抓取频次,网站收录

    抓取频次是搜索引擎蜘蛛在单位时间内容访问网站的次数,比如在百度站长工具内容看到的抓取的频次都是按天进行统计的,那么数据中的抓取频次都是日抓取频次。

    1288
    • 抓取频次
    • 网站收录
  • 造成百度spider抓取异常的原因

    百度spider,抓取

    有一些网页,内容优质,用户也可以正常访问,但是Baiduspider却无法正常访问并抓取,造成搜索结果覆盖率缺失,对百度搜索引擎对站点都是一种损失,百度把这种情况叫“抓取异常”。对于大量内容无法正常抓取的网站,百度搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、排序上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。

    520
    • 百度spider
    • 抓取
  • 怎么样增加外链不会被惩罚

    怎么样增加外链

    怎么样增加外链不会被惩罚,如何规避绿萝算法,安全的增加外链。很简单,做到接近自然生成外链,要有一定的域名广泛性,更重要的外包代发尽量避免,设计到黄赌毒,那就惨绝人员,排名从此与你无缘

    1461
    • 怎么样增加外链
  • 内容采集对于网站优化有什么影响

    采集对于排名影响

    内容采集、伪原创、抄袭等操作方式对于网站排名会不会有影响;凡事都有两面性,重点在于我们找到里面的平衡点,对于seo优化来说采集伪原创的方式并不是不可以使用,关键在于掌握其中的奥秘.....

    1299
    • 采集对于排名影响
  • 百度快照与权重的关系

    权重,百度快照

    百度快照与权重的关系,事实上百度快照并不能反映出搜索引擎蜘蛛抓取网站数据的时间,更不能决定页面的权重。所以大家不必过度的关注百度快照

    1471
    • 权重
    • 百度快照
-- 这已经是底线了,看看别的把! --