一文带你了解百度搜索引擎抓取收录的原理

作为一个seo从业者三句话不离收录,但是大家对于收录的原理真的了解吗,相信很多了解到的就是蜘蛛来抓取然后内容收录,但其实这种理解是比较片面的,了解搜索引擎的收录原理对于提升收录是非常有帮助的。
例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider等。今天潘某人SEO就以百度搜索引擎为例来简单的介绍下搜索引擎的抓取建库的原理。

抓取原理

spider抓取系统的基本流程,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。
百度Spider抓取系统的基本框架
图片来源:百度搜索资源平台
如上图所示,是百度搜索引擎抓取系统的基本原理,从图中可以看出链接的发现和抓取形成一个循环,因此百度搜索引擎抓取系统又称为抓取环。

抓取建库流程

下面举一个例子来理解这个抓取环,当潘某人SEO的站点上线之后,我们将站点的首页提交给了搜索引擎,百度搜索引擎的爬取系统会受到爬取这个url的命令。
然后会对这一页面进行抓取,将抓取到的内容进行网页解析,这一过程会对内容根据算法进行解析,决定是否建库;同时还会对这页面的包含的所有url去重提取,并提交到搜索引擎的总链库。
总链库则是搜索引擎需要进行抓取链接的仓库,链接的来源可以是蜘蛛抓取内容的时候发现的链接,也可以是来源站点通过百度资源平台提交的链接。
链接选取系统,会根据算法选取出需要抓取的链接,交给爬取系统,周而复始,一直循环着,不断的抓取着互联网上的内容。
所以,站点如果内容要被抓取,那么必须保证站点的结构设计合理,蜘蛛在抓取内容的时候可以不断的获取到更多内容,合理的网站结构设计,可以提升搜索引擎的抓取效率,避免信息孤岛;对于一些无法靠抓取环被抓取的内容,就需要站点主动及时的提交给搜索引擎。

爬取与建库

经常会有人问为什么站点抓取是正常的但是就是一直不收录,相信很多站点都有这个困扰。首先我们先需要明确一点,搜索引擎蜘蛛抓取页面并不代表一定会对内容进行建库,也就是大家常说的收录。
在建库环节前,Baiduspider会对页面进行初步内容分析和链接分析,通过内容分析决定该网页是否需要建索引库,而最终是否入库是多种原因共同决定的,下面潘某人SEO就为你列举出主要的因素,主要是对用户的价值和链接重要程度两方面的因素。

对用户的价值

内容独特性:内容在搜索引擎上近似内容少,并且内容是有价值的信息,能够满足用户的搜索需求,提升用户体验。
主体突出:网页的主题应该明确且突出,避免因为内容不突出而被搜索引擎误判为空短页面或不进行抓取。一个主题明确的页面更容易被用户理解和接受,也更容易被搜索引擎识别和索引。
内容丰富性:除了独特性外,内容的丰富性也是非常重要的,页面的内容更加的全面可以为用户提供更多价值,也就更容易获得搜索引擎的认可。
广告适当性:网站的广告布局和比例需要满足百度搜索引擎用户体验的白皮书的要求,并且广告比例也少的站点的页面,在搜索引擎的评价会更高;尤其是对于一些新站潘某人SEO不建议在网页添加页面,广告应该要待站点有了一定权重之后适当添加,更为合适。

链接重要程度

目录层级——浅层优先:在判断链接重要程度时,百度Spider会遵循浅层优先的原则。所以站点如果没有足够多的内容支撑的时候,就不要开辟过多的栏目和目录。
链接站内受欢迎程度:除了目录层级外,链接在站内的受欢迎程度也是判断其重要程度的一个重要指标。如果一个页面被站点很多页面中添加为内链也更容易被搜索引擎抓取建库。
因此,重复内容的网页,在互联网上已有的内容,必然很难在被再收录。加载速度过慢的网页,也有可能被当作空短页面处理,网站加载速度非常关键,需要做到3秒以内,理想值是1.5秒内。

建库与索引

百度蜘蛛抓了多少页面并不是最重要的,重要的是有多少页面被建索引库。并且搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料。
目前60%的检索需求只调用重要索引库即可满足,这也就是很多网站收录量很高,但是流量很一般,甚至收录少的站点反而流量更高。
因此,站长们要理想看待收录量,一味的追求收录量而忽视了内容的质量,就有点舍本逐末。一定要对内容进行把控,提升进入到重要索引库内容的占比是获得流量的关键。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seoxinde/1063yuanli

相关文章

  • 百度SEO优化中常见的算法违规有哪些

    seo算法,百度seo

    在不了解算法的情况下进行SEO优化就变得没有了意义,今天以百度搜索引擎为例,在百度SEO优化中常见的算法违规有哪些呢?在不了解算法的情况下进行SEO优化就变得没有了意义,今天以百度搜索引擎为例,在百度SEO优化中常见的算法违规有哪些呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1324
    • seo算法
    • 百度seo
  • 如何做好百度SEO网站优化

    百度SEO,网站优化

    ​对于百度SEO网站优化,需要注重哪些方面呢?根据《百度搜索建站优化白皮书》为了大家画一下重点,内容有点多需要作为一个专题进行更新,今天先给大家梳理下大纲。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 829
    • 百度SEO
    • 网站优化
  • 百度SEO三大算法

    百度SEO算法

    百度SEO三大算法,HITS算法、百度分词算法、TF-IDF算法,掌握这3大算法可以更好对关键词进行优化,尤其时TF-IDF算法,实际上就是 TF-IDF,TF表示词条在文章中出现的频率。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2197
    • 百度SEO算法
  • 百度SEO抓取友好性之URL规范

    百度SEO,URL规范

    今天潘某人SEO带大家探讨下百度SEO抓取友好性之URL规范,URL结构设置的对于搜索引擎的抓取会有重大的影响,那么我们应该如何更加合理的设置站点url结构。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1138
    • 百度SEO
    • URL规范
  • 网站安全对百度SEO有何重要性

    网站安全与SEO的关系

    网站安全对百度SEO有何重要性?国内至少有80%的网站存在着安全问题,严重困扰并威胁着网站的正常运维。那你的网站存在安全问题吗,该如何解决网站的安全问题?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1521
    • 网站安全与SEO的关系
  • SEO如何正确的判断网站关键词流量

    关键词流量,SEO优化,

    大家流量统计会用什么根据呢,百度统计?相信很多站点的流量统计都是按照百度统计来计算,但是对于SEO优化来说是远远不够的。个人认为百度统计并不是非常适用于SEO优化效果的判定,对于百度SEO优化效果推荐大家使用百度搜索资源平台的中流量与关键词工具,比起百度统计更加适用。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1280
    • 关键词流量
    • SEO优化
  • 百度自然排名的规律

    自然排名的规律

    排在百度首页的,很多人认为是经常更新内容,外链发的多,时间做得久的页面,但实则不然。那么我们如何做才能在百度SEO中脱颖而出呢?从百度排名的规则分析了如何快速获得排名呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2201
    • 自然排名的规律
  • 【重要】搜索资源平台清退风险资源

    搜索资源平台,seo

    如果站点从事百度SEO优化,那么这条消息必看,避免对日常的优化工作产生影响,未及时处理将直接影响百度搜索资源平台的账户。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1072
    • 搜索资源平台
    • seo
  • 百度SEO抓取友好性之链接发现

    百度SEO,链接提交

    ​当网站有了内容,要实现内容的收录,就需要先实现内容被搜索引擎抓取,而要实现抓取就可以让搜索引擎发现链接。对于常见搜索引擎,发现链接的方式主要有两种方式,一种是抓取获取,一种是站点的提交。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 950
    • 百度SEO
    • 链接提交
  • “搜索引擎蜘蛛分权重吗?”——揭秘SEO圈里的重大误区

    蜘蛛,搜索引擎

    在SEO(搜索引擎优化)的世界里,有一句话几乎每个新手都听过:“你这个网站权重太低,蜘蛛都不来爬!”于是很多人开始焦虑:“是不是我网站没权重,搜索引擎蜘蛛根本瞧不上我?”“大站发文章秒收录,我这小站三天都不来爬,是不是被歧视了?”

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 463
    • 蜘蛛
    • 搜索引擎
  • 揭秘搜索引擎蜘蛛IP:如何轻松获取所有搜索引擎蜘蛛IP?

    蜘蛛IP,搜索引擎

    在搜索引擎优化(SEO)的世界中,搜索引擎蜘蛛的IP地址如同“隐形访客”的身份证号码。掌握这些IP不仅能帮助你精准识别真实蜘蛛,还能优化网站抓取策略、过滤垃圾流量,甚至预判网站的收录趋势。那么,如何高效获取并验证这些IP?今天潘某人SEO将为带你深入探索!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 528
    • 蜘蛛IP
    • 搜索引擎
  • 别再这么使用sitemap,可能正在毁掉你的站点

    sitemap,网站地图

    Sitemap(站点地图)本身是一个强大的工具。它以结构化的XML格式,清晰地列出网站上希望搜索引擎索引的所有重要页面链接。对于大型、结构复杂或新上线的网站,提交Sitemap能显著帮助搜索引擎更快地发现站点的内容。然而,任何工具都有其两面性。Sitemap这把“钥匙”,既能打开搜索引擎友好抓取的大门,也可能为不速之客大开方便之门。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 526
    • sitemap
    • 网站地图
  • 原创 ≠ 高收录高排名!真正决定内容成败的,是这4个关键点!

    原创,收录

    在搜索引擎算法不断升级的今天,过去那种靠技术“钻空子”就能轻松获取排名的时代已经一去不复返了。越来越多的内容创作者和网站运营者意识到:只有产出优质内容,才能真正赢得流量与用户。于是,大家纷纷转向原创、伪原创,试图通过“原创内容”来提升收录、获得排名。但现实却往往令人失望——很多站点即便坚持原创,依然难见起色,甚至连基本的收录都难以保障。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 688
    • 原创
    • 收录
  • 网站被K了怎么办?流量暴跌、排名下降如何自救?

    流量,排名,降权

    网站被K的症状有哪些?多久能恢复?又该如何操作自救?在SEO的世界里,每天都像在过山车上——你永远不知道第二天等你的是惊喜还是惊吓。一夜之间,流量归零、关键词排名全掉、收录彻底消失……这就是“网站被K”的真实写照。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 729
    • 流量
    • 排名
    • 降权
  • 新站快速提升网站收录的实战技巧

    网站收录,新站优化

    在搜索引擎优化(SEO)的世界里,“收录”是所有工作的基础。没有收录,就没有排名;没有排名,就没有流量。对于新站来说,如何快速提高网站收录,成为了很多站长最关心的问题。今天潘某人SEO就来聊聊,如何通过科学的方法和细节优化,让搜索引擎更快、更全面地收录你的网站内容,并为后续的排名和转化打下坚实的基础。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 543
    • 网站收录
    • 新站优化
  • SEO优化之网站抓取频次

    抓取频次

    今天我们要聊的是每一个想要提升自己网站搜索引擎优化(SEO)效果的人都应该了解的一个重要概念——网站抓取频次。你是否曾经好奇过,为什么有的网站内容更新后能够迅速被搜索引擎发现,而你的却需要等待许久?这一切都与抓取频次息息相关。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 468
    • 抓取频次
  • 网站SEO死链的如何处理

    死链,SEO

    大量死链的存在容易造成搜索引擎对网站评级的降低,因为大量的死链接的存在,会对于用户访问时的体验造成严重的伤害。同时大量的死链存在,会浪费大量的抓取量,对于网站的正常收录都会造成严重的影响。今天就和潘某人SEO一起探讨一下哪些情况需要提交死链、如何发现以及正确删除死链的方法。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 387
    • 死链
    • SEO
  • 原创内容是SEO优化的关键吗

    原创,SEO优化

    在搜索引擎算法日新月异的今天,通过技术手段试图获取排名的方式越来越难以为继,稳定性也大打折扣。可以说,我们已经步入了“内容为王”的时代。不少坚持进行原创内容创作的站点发现,效果并不如预期,甚至在收录方面都遇到了重重困难。很多人认为内容质量等同于原创性,但事实真的如此吗?原创内容是SEO优化的关键吗?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 460
    • 原创
    • SEO优化
  • 这收录速度还真是逆天,别错过了!

    收录,必应

    如果你在网站优化中遇到了收录难的问题,那么这篇文章别错过了,也许可以帮你获取不少流量。这几年大多数网站的收录量和收录速度大多不太理想,尤其是站点质量一般的情况下,有的站点和收录都绝缘了。得益于windows系统对于Edge浏览器,必应搜索的占有率会持续走高,必应搜索SEO优化的价值也会变得更高。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 5205
    • 收录
    • 必应
  • 原创内容,收录的关键?

    原创

    大家是否经常听到,很多站点每天都坚持更新原创文章,但是收录和排名并不理想。在众多因素中,原创性被普遍认为是影响内容收录速度的关键因素之一。那么,原创内容是否真的能够更快地被搜索引擎收录呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 580
    • 原创
  • SEO如何屏蔽蜘蛛抓取,你掌握了哪些多少种!

    蜘蛛

    在SEO优化中有很多情况需要对蜘蛛进行屏蔽,那么作为一个SEO就必须知道屏蔽搜索引擎蜘蛛的常见方案,以及结合实践采用正确的方法来屏蔽蜘蛛。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 909
    • 蜘蛛
  • 为什么网站有收录却没有流量?

    收录,流量

    相信很多人对于网站有收录但是却没有流量,甚至一些站点的整体收录不错,但是网站的流量却依然很差,今天潘某人SEO为您来揭秘其中的缘由!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1069
    • 收录
    • 流量
  • 百度搜索引擎优先建重要库的原则

    搜索引擎,百度spider

    Baiduspider抓了多少页面并不是最重要的,重要的是有多少页面被建索引库,即我们常说的“建库”。众所周知,搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料。目前60%的检索需求只调用重要索引库即可满足,这也就解释了为什么有些网站的收录量超高流量却一直不理想。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 874
    • 搜索引擎
    • 百度spider
  • 百度spider对新链接重要程度判断

    百度spider

    影响Baiduspider正常抓取的原因,下面就要说说Baiduspider的一些判断原则了。在建库环节前,Baiduspider会对页面进行初步内容分析和链接分析,通过内容分析决定该网页是否需要建索引库,通过链接分析发现更多网页,再对更多网页进行抓取——分析——是否建库&发现新链接的流程。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 649
    • 百度spider
  • 造成百度spider抓取异常的原因

    百度spider,抓取

    有一些网页,内容优质,用户也可以正常访问,但是Baiduspider却无法正常访问并抓取,造成搜索结果覆盖率缺失,对百度搜索引擎对站点都是一种损失,百度把这种情况叫“抓取异常”。对于大量内容无法正常抓取的网站,百度搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、排序上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1050
    • 百度spider
    • 抓取
  • 百度spider抓取频次原则及调整方法

    百度spider,抓取频次

    Baiduspider根据上述网站设置的协议对站点页面进行抓取,但是不可能做到对所有站点一视同仁,会综合考虑站点实际情况确定一个抓取配额,每天定量抓取站点内容,即我们常说的抓取频次。那么百度搜索引擎是根据什么指标来确定对一个网站的抓取频次的呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 970
    • 百度spider
    • 抓取频次
  • 百度spider抓取过程中涉及的网络协议

    百度spider,抓取

    刚才提到百度搜索引擎会设计复杂的抓取策略,其实搜索引擎与资源提供者之间存在相互依赖的关系,其中搜索引擎需要站长为其提供资源,否则搜索引擎就无法满足用户检索需求;而站长需要通过搜索引擎将自己的 内容推广出去获取更多的受众。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 731
    • 百度spider
    • 抓取
  • 百度spider 主要抓取策略类型

    百度spider,抓取

    =Baiduspider在抓取过程中面对的是一个超级复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 831
    • 百度spider
    • 抓取
  • 百度搜索引擎Spider抓取系统的基本框架

    搜索引擎,百度spider

    互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider等。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1075
    • 搜索引擎
    • 百度spider