一文带你了解百度搜索引擎抓取收录的原理

作为一个seo从业者三句话不离收录,但是大家对于收录的原理真的了解吗,相信很多了解到的就是蜘蛛来抓取然后内容收录,但其实这种理解是比较片面的,了解搜索引擎的收录原理对于提升收录是非常有帮助的。
例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider等。今天潘某人SEO就以百度搜索引擎为例来简单的介绍下搜索引擎的抓取建库的原理。

抓取原理

spider抓取系统的基本流程,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。
百度Spider抓取系统的基本框架
图片来源:百度搜索资源平台
如上图所示,是百度搜索引擎抓取系统的基本原理,从图中可以看出链接的发现和抓取形成一个循环,因此百度搜索引擎抓取系统又称为抓取环。

抓取建库流程

下面举一个例子来理解这个抓取环,当潘某人SEO的站点上线之后,我们将站点的首页提交给了搜索引擎,百度搜索引擎的爬取系统会受到爬取这个url的命令。
然后会对这一页面进行抓取,将抓取到的内容进行网页解析,这一过程会对内容根据算法进行解析,决定是否建库;同时还会对这页面的包含的所有url去重提取,并提交到搜索引擎的总链库。
总链库则是搜索引擎需要进行抓取链接的仓库,链接的来源可以是蜘蛛抓取内容的时候发现的链接,也可以是来源站点通过百度资源平台提交的链接。
链接选取系统,会根据算法选取出需要抓取的链接,交给爬取系统,周而复始,一直循环着,不断的抓取着互联网上的内容。
所以,站点如果内容要被抓取,那么必须保证站点的结构设计合理,蜘蛛在抓取内容的时候可以不断的获取到更多内容,合理的网站结构设计,可以提升搜索引擎的抓取效率,避免信息孤岛;对于一些无法靠抓取环被抓取的内容,就需要站点主动及时的提交给搜索引擎。

爬取与建库

经常会有人问为什么站点抓取是正常的但是就是一直不收录,相信很多站点都有这个困扰。首先我们先需要明确一点,搜索引擎蜘蛛抓取页面并不代表一定会对内容进行建库,也就是大家常说的收录。
在建库环节前,Baiduspider会对页面进行初步内容分析和链接分析,通过内容分析决定该网页是否需要建索引库,而最终是否入库是多种原因共同决定的,下面潘某人SEO就为你列举出主要的因素,主要是对用户的价值和链接重要程度两方面的因素。

对用户的价值

内容独特性:内容在搜索引擎上近似内容少,并且内容是有价值的信息,能够满足用户的搜索需求,提升用户体验。
主体突出:网页的主题应该明确且突出,避免因为内容不突出而被搜索引擎误判为空短页面或不进行抓取。一个主题明确的页面更容易被用户理解和接受,也更容易被搜索引擎识别和索引。
内容丰富性:除了独特性外,内容的丰富性也是非常重要的,页面的内容更加的全面可以为用户提供更多价值,也就更容易获得搜索引擎的认可。
广告适当性:网站的广告布局和比例需要满足百度搜索引擎用户体验的白皮书的要求,并且广告比例也少的站点的页面,在搜索引擎的评价会更高;尤其是对于一些新站潘某人SEO不建议在网页添加页面,广告应该要待站点有了一定权重之后适当添加,更为合适。

链接重要程度

目录层级——浅层优先:在判断链接重要程度时,百度Spider会遵循浅层优先的原则。所以站点如果没有足够多的内容支撑的时候,就不要开辟过多的栏目和目录。
链接站内受欢迎程度:除了目录层级外,链接在站内的受欢迎程度也是判断其重要程度的一个重要指标。如果一个页面被站点很多页面中添加为内链也更容易被搜索引擎抓取建库。
因此,重复内容的网页,在互联网上已有的内容,必然很难在被再收录。加载速度过慢的网页,也有可能被当作空短页面处理,网站加载速度非常关键,需要做到3秒以内,理想值是1.5秒内。

建库与索引

百度蜘蛛抓了多少页面并不是最重要的,重要的是有多少页面被建索引库。并且搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料。
目前60%的检索需求只调用重要索引库即可满足,这也就是很多网站收录量很高,但是流量很一般,甚至收录少的站点反而流量更高。
因此,站长们要理想看待收录量,一味的追求收录量而忽视了内容的质量,就有点舍本逐末。一定要对内容进行把控,提升进入到重要索引库内容的占比是获得流量的关键。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seoxinde/1063yuanli

相关文章

  • 【必看】设置死链的秘诀!

    如何设置死链,404,seo

    死链相信大家都不陌生,但是你知道不及时处理死链对于SEO优化会有多大的影响嘛?今天就来普及下死链处理时的注意事项。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1056
    • 如何设置死链
    • 404
    • seo
  • 如何更新或删除百度快照

    百度快照更新

    很多人在优化的过程中想要去更新或者删除百度快照,但是碍于自己还是新手,实战经验不是很丰富,不懂得如何去操作,今天我给大家简单的分享一下。有时候,我们对网站进行了改版,修改了标题、描述等等,这个时候我们想要更新百度快照,让快照尽快更新过来,或者让标题、描述快速更新过来,怎么办?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2396
    • 百度快照更新
  • 收录数量和网站排名的关系

    收录数和排名的关系

    seo优化之网站文章的收录是不是越多对排名越好?答案肯定不是,因为很简单所有的事情不是一概而论的;大家可以去随便找几个相关领域的网站对比下,你就可以发现有的网站收录数量只有几千,但是权重却要高于收录数量几十万的网站。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1694
    • 收录数和排名的关系
  • 移动落地页中如何设置咨询功能?

    咨询框怎么设置

    移动落地页中如何设置咨询功能?才是更加符合SEO规范呢?咨询类功能在当前页只能出现一次,且位置不允许出现在顶部;在用户未主动点击的情况下,咨询的对话窗口不可自动弹出;咨询按钮可在底部或侧面悬浮,但面积不宜过大干扰用户浏览。”

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1599
    • 咨询框怎么设置
  • h5哪些标签可以seo优化

    h5标签,seo优化

    HTML5中可以用哪些代码标签来做SEO搜索引擎优化?H5中的标签可以使得网页内容更加结构化,可以更加清楚的展示页面内容的结构,可以提升对于搜索引擎的友好性,可以更加容易的识别网站内容以及站点的类型。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2529
    • h5标签
    • seo优化
  • 聚合标签对seo优化的作用

    seo聚合标签

    聚合标签这个词大家可能比较陌生,即使是SEO们也有很多人是没有听说过,聚合标签我们也可以认为是tag标签,那么这类聚合标签对于SEO优化的作用大不大呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2147
    • seo聚合标签
  • 百度spider 主要抓取策略类型

    百度spider,抓取

    =Baiduspider在抓取过程中面对的是一个超级复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 877
    • 百度spider
    • 抓取
  • 百度抓取频率高代表什么,如何调整

    抓取频率调整

    百度蜘蛛抓取频次是根据网站的内容量来的,简单的来说,如果网站的内容多那么抓取频次就高;如果网站的内容少,那么百度抓取的频次就低。百度抓取频率高代表什么,如何调整?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3859
    • 抓取频率调整
  • 手机移动端该怎么优化?

    手机移动端优化

    手机移动端该怎么优化?移动互联网的推出,各位站长也纷纷的挤入了移动化网站,移动网站可以说是一个比一个做的漂亮,那么既然做了移动化的网站,那少不了的自然是SEO优化,在PC端上你的网站可能在某个词上有排名,但在移动搜索引擎上,未必你会优先排名展现。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1523
    • 手机移动端优化
  • 网站更新和排名之间的关系你知道吗

    网站更新,网站排名

    大多数站长会认为网站的流量靠的是不断的更新才可以稳定的获取流量,那么事实真的是如此吗?加入网站长期不更新,那么站点的流量和排名会消失吗?今天我们就来探索下网站排名流量和网站更新之间的关系。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1069
    • 网站更新
    • 网站排名
  • 影响网站页面加载速度的原因,如何提升加载速度

    页面加载速度,网站优化

    百度搜索对用户行为的研究表明,页面首屏的加载时间在1秒以内的页面,会带给用户流畅快捷的极速体验,而加载速度过长的页面,会加快用户的流失。谁在影响页面的加载速度?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1019
    • 页面加载速度
    • 网站优化
  • 关键词排名到第一位的秘诀

    关键词排名,排名因素

    你有没有想过关键词排名第一的因素吗?为什么同样的内容在不同的站点排名就不一样?如果你但是简单的归于网站权重那么就大错特错了。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1188
    • 关键词排名
    • 排名因素
  • seo页面优化的常用技术

    seo页面优化的

    seo页面优化的常用技术,从核心关键词分析定位、网站目录和页面优化、标签优化技巧、利用好百度搜索资源平台、提高页面的附加价值、访客到客户的转化工作几个角度来讲下SEO页面优化的常用技术。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1640
    • seo页面优化的
  • 网页打开速度很慢,对SEO有何影响

    网页打开速度,SEO影响因素

    网站打开速度是很多站点在优化的时候比较容易忽视的问题,然后网站打开速度慢不仅对于SEO优化会有很大的影响,对于网站的流量转化也会造成直接巨大的影响。今天来探讨下网站打开速度对于SEO有什么影响,又如何去提升网站的速度呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1702
    • 网页打开速度
    • SEO影响因素
  • SEO优化做得好,一半功劳是“抄”来的?

    SEO优化

    你是不是也曾为SEO优化头疼不已?看着别人的网站排名飙升,自己的却纹丝不动,焦虑感油然而生。别急,今天潘某人SEO分享一个颠覆你认知的观点:SEO优化最快的成功方式,竟然是“抄袭借鉴”!借鉴成功者经验,相当于站在巨人的肩膀上,直接跳过无效努力,直奔结果。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 451
    • SEO优化
  • SEO站外优化的方法有哪些?

    seo站外优化

    SEO站外优化的方法有哪些?一个网站如果有比较好的内容,但是客户还是无法看到的话,那么就说明SEO优化没有达到理想的效果。我们做网站首先就是要让用户能够看到,这样才能带来更多的流量,最终实现建设网站的目的就是起到推广或者是营销的效果。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1501
    • seo站外优化
  • 关于索引量,你必须知道的事

    百度索引量

    网站被Baiduspider抓取收录后,经过一系列计划才得以建入索引库,有了和搜索用户见面的机会。所以,索引量一直是站长们关注的焦点,但我们发现,依然有很多站长对索引量存在误读。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2158
    • 百度索引量
  • 新站收录与老站收录的区别

    新站收录,老站收录,seo优化

    导致网站不收录的原因有很多,想要解决收录问题,那么首先需要找到站点不收录的原因。但是很多站点在寻找原因的时候第一个方向就错了,对于老站和新站不收录的原因是有很大区别的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1313
    • 新站收录
    • 老站收录
    • seo优化