首页 >  SEO >  SEO心得 >  正文

一文带你了解百度搜索引擎抓取收录的原理

 作者:潘某人SEO
594

作为一个seo从业者三句话不离收录,但是大家对于收录的原理真的了解吗,相信很多了解到的就是蜘蛛来抓取然后内容收录,但其实这种理解是比较片面的,了解搜索引擎的收录原理对于提升收录是非常有帮助的。
例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider等。今天潘某人SEO就以百度搜索引擎为例来简单的介绍下搜索引擎的抓取建库的原理。

抓取原理

spider抓取系统的基本流程,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。
百度Spider抓取系统的基本框架
图片来源:百度搜索资源平台
如上图所示,是百度搜索引擎抓取系统的基本原理,从图中可以看出链接的发现和抓取形成一个循环,因此百度搜索引擎抓取系统又称为抓取环。

抓取建库流程

下面举一个例子来理解这个抓取环,当潘某人SEO的站点上线之后,我们将站点的首页提交给了搜索引擎,百度搜索引擎的爬取系统会受到爬取这个url的命令。
然后会对这一页面进行抓取,将抓取到的内容进行网页解析,这一过程会对内容根据算法进行解析,决定是否建库;同时还会对这页面的包含的所有url去重提取,并提交到搜索引擎的总链库。
总链库则是搜索引擎需要进行抓取链接的仓库,链接的来源可以是蜘蛛抓取内容的时候发现的链接,也可以是来源站点通过百度资源平台提交的链接。
链接选取系统,会根据算法选取出需要抓取的链接,交给爬取系统,周而复始,一直循环着,不断的抓取着互联网上的内容。
所以,站点如果内容要被抓取,那么必须保证站点的结构设计合理,蜘蛛在抓取内容的时候可以不断的获取到更多内容,合理的网站结构设计,可以提升搜索引擎的抓取效率,避免信息孤岛;对于一些无法靠抓取环被抓取的内容,就需要站点主动及时的提交给搜索引擎。

爬取与建库

经常会有人问为什么站点抓取是正常的但是就是一直不收录,相信很多站点都有这个困扰。首先我们先需要明确一点,搜索引擎蜘蛛抓取页面并不代表一定会对内容进行建库,也就是大家常说的收录。
在建库环节前,Baiduspider会对页面进行初步内容分析和链接分析,通过内容分析决定该网页是否需要建索引库,而最终是否入库是多种原因共同决定的,下面潘某人SEO就为你列举出主要的因素,主要是对用户的价值和链接重要程度两方面的因素。

对用户的价值

内容独特性:内容在搜索引擎上近似内容少,并且内容是有价值的信息,能够满足用户的搜索需求,提升用户体验。
主体突出:网页的主题应该明确且突出,避免因为内容不突出而被搜索引擎误判为空短页面或不进行抓取。一个主题明确的页面更容易被用户理解和接受,也更容易被搜索引擎识别和索引。
内容丰富性:除了独特性外,内容的丰富性也是非常重要的,页面的内容更加的全面可以为用户提供更多价值,也就更容易获得搜索引擎的认可。
广告适当性:网站的广告布局和比例需要满足百度搜索引擎用户体验的白皮书的要求,并且广告比例也少的站点的页面,在搜索引擎的评价会更高;尤其是对于一些新站潘某人SEO不建议在网页添加页面,广告应该要待站点有了一定权重之后适当添加,更为合适。

链接重要程度

目录层级——浅层优先:在判断链接重要程度时,百度Spider会遵循浅层优先的原则。所以站点如果没有足够多的内容支撑的时候,就不要开辟过多的栏目和目录。
链接站内受欢迎程度:除了目录层级外,链接在站内的受欢迎程度也是判断其重要程度的一个重要指标。如果一个页面被站点很多页面中添加为内链也更容易被搜索引擎抓取建库。
因此,重复内容的网页,在互联网上已有的内容,必然很难在被再收录。加载速度过慢的网页,也有可能被当作空短页面处理,网站加载速度非常关键,需要做到3秒以内,理想值是1.5秒内。

建库与索引

百度蜘蛛抓了多少页面并不是最重要的,重要的是有多少页面被建索引库。并且搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料。
目前60%的检索需求只调用重要索引库即可满足,这也就是很多网站收录量很高,但是流量很一般,甚至收录少的站点反而流量更高。
因此,站长们要理想看待收录量,一味的追求收录量而忽视了内容的质量,就有点舍本逐末。一定要对内容进行把控,提升进入到重要索引库内容的占比是获得流量的关键。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seoxinde/1063yuanli
相关文章
  • 这收录速度还真是逆天,别错过了!

    收录,必应

    如果你在网站优化中遇到了收录难的问题,那么这篇文章别错过了,也许可以帮你获取不少流量。这几年大多数网站的收录量和收录速度大多不太理想,尤其是站点质量一般的情况下,有的站点和收录都绝缘了。得益于windows系统对于Edge浏览器,必应搜索的占有率会持续走高,必应搜索SEO优化的价值也会变得更高。

    567
    • 收录
    • 必应
  • 网站多久才不算新站

    网站多久才不算新站

    新站的时间大概在3-6个月不等,判断一个网站是否过了考核期,应当有两个标准,一收录,二排名。有收录,过了一半;有排名了,全过。一般而言,首页和内页的考核期也不同。

    2409
    • 网站多久才不算新站
  • 新人小白如何学好SEO

    小白SEO,学好SEO

    看到网上很多给小白们整理规定的新人必备的教程,只能说讲得很好,但是并非是新人SEO小白必备的。SEO优化说简单也简单,说复杂又很复杂,很多教程拿出SEO优化的几个点重要点一梳理一份小白需要的教程就出来了,这个不是在坑人么。

    611
    • 小白SEO
    • 学好SEO
  • SEO站内外优化的差异

    站内外优化差异

    SEO优化可以分为站内优化和站外优化,那么在两者之间我们应该重点优化哪一个呢?以及站内的优化的方式各有哪些方面呢?

    1720
    • 站内外优化差异
  • SEO从业者格局打开路也就宽了

    SEO发展,SEO优化

    对于SEO从业者首先要打开格局眼界,才能在SEO优化的路上走远。很多SEO从业者在未自己的再来迷茫,不得不说如今的SEO市场的确也不咋地,不是说SEO优化没有前景,而是SEO的环境很差,有点劣币驱逐良币。

    613
    • SEO发展
    • SEO优化
  • 学习seo网站优化难吗

    seo网站优化难吗

    对于SEO优化这个岗位可以说任何一个学科都不涉及,因此SEO优化基本都是零基础入门的,那么SEO优化学习难吗?如何才能够学好SEO优化呢?也许你是参加了培训机构,也许你是自学SEO优化。

    1111
    • seo网站优化难吗
  • 搜索引擎网页质量判定的标准

    搜索引擎,网页质量

    搜索引擎的根本是什么,是内容是对于用户搜索需求满足,这是搜索引擎最根本的逻辑,后续的一切也都是根据这个方向展开的。根据《百度搜索引擎网页质量白皮书》,站长们在百度搜索引擎优化中如何才能输出高质量内容呢?

    667
    • 搜索引擎
    • 网页质量
  • SEO攻击防御与效果稳定

    seo优化

    当你的站点在行业内有了一定的知名度和影响力之后,那么不可避免会遭受到攻击抄袭模仿,那么我们又应该如何面对这些情况呢?今天就从技术和内容的角度讲到的讲一下如何处理此类情况。

    1524
    • seo优化
  • 百度移动适配状态说明

    移动适配状态

    百度移动适配状态说明,对于适配的状态成功失败原因的分析以及解决方案。当认为实际情况与您提交的情况相符时,才会对适配数据进行生效处理,这个校验时间大约为10天。

    3432
    • 移动适配状态
  • SEO优化未来发展方向

    SEO优化发展

    SEO优化未来发展方向?如何才能立于不败之地?对于做SEO优化来说,尤其是对于刚入行的优化者来说,会担忧这个行业的发展。入SEO这个行业有没有前途。必然SEO优化是一项充满着挑战变数的工作....

    1881
    • SEO优化发展
  • nginx网站域名重定向怎么做

    nginx重定向,网站域名重定向

    网站上线最基础的一步就是确立域名如何重定向,如果最优的设置重定向。一方面要确立网站主域,另一方面跳转配置不遗漏并且尽可能减少没必要的跳转。

    1011
    • nginx重定向
    • 网站域名重定向
  • 百度快照对排名的影响

    快照排名的关系

    百度快照是搜索引擎在抓取页面时候,保留的一份纯文本文档。就是当网站无法访问的时候,访客可以通过快照了解页面的基本的内容;或者说你当前的网络环境很差的时候,因为百度快照是一个纯文本内容,你可以在网络速度极慢的时候还是可以顺利的打开快照页面。

    1210
    • 快照排名的关系
  • 域名后缀对seo的影响

    域名后缀SEO影响

    域名后缀以及域名的长短会对网站seo产生影响吗?早期来说域名的后缀对于SEO优化不会有任何的影响,但是随着这个行业的发展慢慢的出现了群站,如今是否存在影响也是成为了一个不确定的因素。

    2254
    • 域名后缀SEO影响
  • 如何申请增加百度资源平台提交配额

    api提交,sitemap,百度

    站点没有sitemap权限,api提交额度只有10条,如何申请增加提交配额的方法,如上图所示,是百度搜索资源平台官方提供的配额权限申请的问卷,站点可以通过填写站点信息,以及配额的情况的,对于符合要求的站点会在15个工作日内赋予相应的资源配额。

    1255
    • api提交
    • sitemap
    • 百度
  • SEO删除旧内容,对排名有影响吗?

    旧内容删除排名变化

    SEO删除旧内容,对排名有影响吗?SEO人员开始研究“以旧换新”或者直接删除旧内容的策略。前期页面排名一定是会有影响,可能下降,也可能上升,但从长期的角度来衡量,

    1633
    • 旧内容删除排名变化
  • 修改网站标题对排名有影响吗

    修改标题,排名影响

    修改网站的关键词标题等会影响网站的排名吗,网上大多数的说法是站点的关键词标题不能够轻易修改,对于网站的排名影响很大,但是真相并非如此......

    1850
    • 修改标题
    • 排名影响
  • SEO优化中常见的问题,你中了几个?

    SEO优化

    在做SEO的过程中,还有几个最常见的问题,问题不大影响却不小,下面列举几个经常在网站优化中忽略而犯的错误,看看你中了个!

    659
    • SEO优化
  • 什么是抓取频率,如何提升抓取量

    抓取频率

    抓取频率对于SEO优化是一个重要的参数,网站收录先决条件是抓取,抓取的数量以及频次决定了网站的页面的收录速度,保持网站的合理抓取频次至关重要

    2777
    • 抓取频率
-- 这已经是底线了,看看别的把! --