一文带你了解百度搜索引擎抓取收录的原理

作为一个seo从业者三句话不离收录,但是大家对于收录的原理真的了解吗,相信很多了解到的就是蜘蛛来抓取然后内容收录,但其实这种理解是比较片面的,了解搜索引擎的收录原理对于提升收录是非常有帮助的。
例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider等。今天潘某人SEO就以百度搜索引擎为例来简单的介绍下搜索引擎的抓取建库的原理。

抓取原理

spider抓取系统的基本流程,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。
百度Spider抓取系统的基本框架
图片来源:百度搜索资源平台
如上图所示,是百度搜索引擎抓取系统的基本原理,从图中可以看出链接的发现和抓取形成一个循环,因此百度搜索引擎抓取系统又称为抓取环。

抓取建库流程

下面举一个例子来理解这个抓取环,当潘某人SEO的站点上线之后,我们将站点的首页提交给了搜索引擎,百度搜索引擎的爬取系统会受到爬取这个url的命令。
然后会对这一页面进行抓取,将抓取到的内容进行网页解析,这一过程会对内容根据算法进行解析,决定是否建库;同时还会对这页面的包含的所有url去重提取,并提交到搜索引擎的总链库。
总链库则是搜索引擎需要进行抓取链接的仓库,链接的来源可以是蜘蛛抓取内容的时候发现的链接,也可以是来源站点通过百度资源平台提交的链接。
链接选取系统,会根据算法选取出需要抓取的链接,交给爬取系统,周而复始,一直循环着,不断的抓取着互联网上的内容。
所以,站点如果内容要被抓取,那么必须保证站点的结构设计合理,蜘蛛在抓取内容的时候可以不断的获取到更多内容,合理的网站结构设计,可以提升搜索引擎的抓取效率,避免信息孤岛;对于一些无法靠抓取环被抓取的内容,就需要站点主动及时的提交给搜索引擎。

爬取与建库

经常会有人问为什么站点抓取是正常的但是就是一直不收录,相信很多站点都有这个困扰。首先我们先需要明确一点,搜索引擎蜘蛛抓取页面并不代表一定会对内容进行建库,也就是大家常说的收录。
在建库环节前,Baiduspider会对页面进行初步内容分析和链接分析,通过内容分析决定该网页是否需要建索引库,而最终是否入库是多种原因共同决定的,下面潘某人SEO就为你列举出主要的因素,主要是对用户的价值和链接重要程度两方面的因素。

对用户的价值

内容独特性:内容在搜索引擎上近似内容少,并且内容是有价值的信息,能够满足用户的搜索需求,提升用户体验。
主体突出:网页的主题应该明确且突出,避免因为内容不突出而被搜索引擎误判为空短页面或不进行抓取。一个主题明确的页面更容易被用户理解和接受,也更容易被搜索引擎识别和索引。
内容丰富性:除了独特性外,内容的丰富性也是非常重要的,页面的内容更加的全面可以为用户提供更多价值,也就更容易获得搜索引擎的认可。
广告适当性:网站的广告布局和比例需要满足百度搜索引擎用户体验的白皮书的要求,并且广告比例也少的站点的页面,在搜索引擎的评价会更高;尤其是对于一些新站潘某人SEO不建议在网页添加页面,广告应该要待站点有了一定权重之后适当添加,更为合适。

链接重要程度

目录层级——浅层优先:在判断链接重要程度时,百度Spider会遵循浅层优先的原则。所以站点如果没有足够多的内容支撑的时候,就不要开辟过多的栏目和目录。
链接站内受欢迎程度:除了目录层级外,链接在站内的受欢迎程度也是判断其重要程度的一个重要指标。如果一个页面被站点很多页面中添加为内链也更容易被搜索引擎抓取建库。
因此,重复内容的网页,在互联网上已有的内容,必然很难在被再收录。加载速度过慢的网页,也有可能被当作空短页面处理,网站加载速度非常关键,需要做到3秒以内,理想值是1.5秒内。

建库与索引

百度蜘蛛抓了多少页面并不是最重要的,重要的是有多少页面被建索引库。并且搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料。
目前60%的检索需求只调用重要索引库即可满足,这也就是很多网站收录量很高,但是流量很一般,甚至收录少的站点反而流量更高。
因此,站长们要理想看待收录量,一味的追求收录量而忽视了内容的质量,就有点舍本逐末。一定要对内容进行把控,提升进入到重要索引库内容的占比是获得流量的关键。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seoxinde/1063yuanli

相关文章

  • 建站系统搭建网站利于SEO优化吗?

    建站系统选择

    对于一般的企业建站为了便利性会选择使用建站系统来进行网站的搭建,但是使用建站系统却存在着很多问题,对于业务上或者SEO优化上都有着很大影响。然而对于中小企业使用建站系统模板来搭建系统主要还是成本、维护上上考虑,也是一种迫不得已的选择,那么使用建站系统建站我们需要避免那些问题呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 940
    • 建站系统选择
  • 优化标题关键词可以提升排名吗?

    标题关键词,网站排名

    很多人有一个疑问,把需要排名的关键词插入标题是不是就可以提升这个关键词的排名吗?有可能可以提升排名,也有可能非凡没有提升还会有负面作用,说了等于没说哈!这个需要根据实际情况具体分析,不是绝对的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1004
    • 标题关键词
    • 网站排名
  • 网站使用CDN会对SEO有什么好处

    CDN,SEO优化

    CDN 是构建在数据网络上的一种分布式的内容分发网,网站使用CDN会对SEO有什么好处,如何正确的使用cdn才能发挥对于seo优化的作用。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1079
    • CDN
    • SEO优化
  • 关键词库如何增加?

    如何增加关键词库

    关键词库如何增加?关键词库,是指网站所有关键词详细情况的记录,包括但不限于是否收录、排名、对应页面的URL、百度指数、月获得流量。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2445
    • 如何增加关键词库
  • 网站排名一直掉,从这几个方面排查

    网站排名一直掉

    无论你的公司规模多大,你在搜索引擎上的一些不恰当的SEO手法,都可能会受到处罚,从而影响你的搜索排名。例如,百度、360搜索甚至会在搜索结果中完全删除你网站的页面。因此,你要避免受到惩罚,避免失去搜索流量。以下是一些简单的SEO方法,可以避免你犯错误,这些错误有可能会让你的排名全无。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2441
    • 网站排名一直掉
  • vue适合做SEO优化吗

    vue适合做SEO优化

    现在越来越多的网站开始运用VUE,但是大家都知道搜索引擎对于JavaScript是不友好的,而vue框架本质就是javascript是一种应用,那么对于网站有SEO优化需求的站点对于vue应该如何的抉择。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1664
    • vue适合做SEO优化
  • 如何批量查询收录

    网站收录批量查询,收录查询代码

    介绍一个可以自制的批量快速查询网站收录情况的工具,只需要简单的几行代码,就可以实现批量查询,从此不必一条条去手动查询收录,或者依靠第三方工具了。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1411
    • 网站收录批量查询
    • 收录查询代码
  • 如何让网站页面更快的收录

    页面更快收录

    如何让网站页面更快的收录,网站及页面权重、网站服务器、网站的更新频率、内容的质量等方面都影响这网站内容的收录,只要做到上面这几点网站的收录不会差

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1256
    • 页面更快收录
  • 百度蜘蛛有权重之分吗?

    百度蜘蛛,权重

    百度搜索学院线上公开课第六讲——网站抓取建设指南,在这个百度官方的直播课程回放中,最后百度搜索工程师最后的QA中明确的表明了不存在蜘蛛权重之分的行为。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2242
    • 百度蜘蛛
    • 权重
  • 新人小白如何学好SEO

    小白SEO,学好SEO

    看到网上很多给小白们整理规定的新人必备的教程,只能说讲得很好,但是并非是新人SEO小白必备的。SEO优化说简单也简单,说复杂又很复杂,很多教程拿出SEO优化的几个点重要点一梳理一份小白需要的教程就出来了,这个不是在坑人么。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 672
    • 小白SEO
    • 学好SEO
  • 网站如何制作才会被百度收录?

    网站内容规划

    网站如何制作才会被百度收录? 新网站建设成功后,只有在百度等大型网站被审核认可后,才能被其他人搜索,所以如何使百度收录成为一个非常重要的问题

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2282
    • 网站内容规划
  • 网站栏目数量对于权重的影响

    网站栏目,权重,seo

    ​如果您近期正在打算搭建网站,那么看到这篇文章就赶上了。很多站点在网站搭建的时候就为后期的SEO优化埋下了诸多的坑。如网站的栏目结构可以说是重灾区。网站的栏目数量要适当不宜多,对于大多数网站栏目数量控制在3-5左右差不多。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 611
    • 网站栏目
    • 权重
    • seo
  • 内链算法快,快速提升关键词排名

    内链算法

    内链算法快,快速提升关键词排名?内链是搜索引擎200多项算法中对网站打分的一个重要算法,利用内链算法快速提升权重获得排名。但是做内链的思维和方向你们知道怎么做是有利内链算法加分的。内链不能随便乱链,

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1693
    • 内链算法
  • 为什么搜索结果和点进去看的内容不一样

    User-Agent,搜索引擎

    有时候会遇到这种情况,在搜索引擎上找到了需要的内容,但是点击进去网站之后,发现和搜索引擎中的检索结果无关,甚至有的页面连主题都不相关。为什么会有这种情况出现呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2159
    • User-Agent
    • 搜索引擎
  • 什么是网站的抓取频次

    抓取频次,网站收录

    抓取频次是搜索引擎蜘蛛在单位时间内容访问网站的次数,比如在百度站长工具内容看到的抓取的频次都是按天进行统计的,那么数据中的抓取频次都是日抓取频次。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1315
    • 抓取频次
    • 网站收录
  • 移动端网站优化步骤是什么

    移动优化方法

    目前国内手机用户已经突破了10亿,并且手机上网已经替代电脑设备成为了主流的上网搜索方式,正因为移动搜索市场的越来越庞大,也就不得不使得越来越多的站点也开始关注其移动端的SEO优化问题,那么移动的SEO优化大致是一个什么样的步骤呢,和PC端有什么不同之处呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1264
    • 移动优化方法
  • AI大模型或将走上搜索引擎的老路

    AI大模,搜索引擎

    AI大模型以其强大的生成能力和广泛的应用场景,已逐步的融入到大家的生活中。AI大模的数据污染与低质量内容问题或将成为一个严峻的问题,AI大模型或将走上搜索引擎的老路。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3003
    • AI大模
    • 搜索引擎
  • 域名价值评估

    域名价值评估

    大家知道一个域名的价值是由什么决定的呢?你知道如何判断一个域名的价值呢?对于SEOER们会从域名的权重角度来判断,但还是比较片面,我们应该从哪些方面更好判断一个域名的价值。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 817
    • 域名价值评估