一文带你了解百度搜索引擎抓取收录的原理

作为一个seo从业者三句话不离收录,但是大家对于收录的原理真的了解吗,相信很多了解到的就是蜘蛛来抓取然后内容收录,但其实这种理解是比较片面的,了解搜索引擎的收录原理对于提升收录是非常有帮助的。
例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider等。今天潘某人SEO就以百度搜索引擎为例来简单的介绍下搜索引擎的抓取建库的原理。

抓取原理

spider抓取系统的基本流程,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。
百度Spider抓取系统的基本框架
图片来源:百度搜索资源平台
如上图所示,是百度搜索引擎抓取系统的基本原理,从图中可以看出链接的发现和抓取形成一个循环,因此百度搜索引擎抓取系统又称为抓取环。

抓取建库流程

下面举一个例子来理解这个抓取环,当潘某人SEO的站点上线之后,我们将站点的首页提交给了搜索引擎,百度搜索引擎的爬取系统会受到爬取这个url的命令。
然后会对这一页面进行抓取,将抓取到的内容进行网页解析,这一过程会对内容根据算法进行解析,决定是否建库;同时还会对这页面的包含的所有url去重提取,并提交到搜索引擎的总链库。
总链库则是搜索引擎需要进行抓取链接的仓库,链接的来源可以是蜘蛛抓取内容的时候发现的链接,也可以是来源站点通过百度资源平台提交的链接。
链接选取系统,会根据算法选取出需要抓取的链接,交给爬取系统,周而复始,一直循环着,不断的抓取着互联网上的内容。
所以,站点如果内容要被抓取,那么必须保证站点的结构设计合理,蜘蛛在抓取内容的时候可以不断的获取到更多内容,合理的网站结构设计,可以提升搜索引擎的抓取效率,避免信息孤岛;对于一些无法靠抓取环被抓取的内容,就需要站点主动及时的提交给搜索引擎。

爬取与建库

经常会有人问为什么站点抓取是正常的但是就是一直不收录,相信很多站点都有这个困扰。首先我们先需要明确一点,搜索引擎蜘蛛抓取页面并不代表一定会对内容进行建库,也就是大家常说的收录。
在建库环节前,Baiduspider会对页面进行初步内容分析和链接分析,通过内容分析决定该网页是否需要建索引库,而最终是否入库是多种原因共同决定的,下面潘某人SEO就为你列举出主要的因素,主要是对用户的价值和链接重要程度两方面的因素。

对用户的价值

内容独特性:内容在搜索引擎上近似内容少,并且内容是有价值的信息,能够满足用户的搜索需求,提升用户体验。
主体突出:网页的主题应该明确且突出,避免因为内容不突出而被搜索引擎误判为空短页面或不进行抓取。一个主题明确的页面更容易被用户理解和接受,也更容易被搜索引擎识别和索引。
内容丰富性:除了独特性外,内容的丰富性也是非常重要的,页面的内容更加的全面可以为用户提供更多价值,也就更容易获得搜索引擎的认可。
广告适当性:网站的广告布局和比例需要满足百度搜索引擎用户体验的白皮书的要求,并且广告比例也少的站点的页面,在搜索引擎的评价会更高;尤其是对于一些新站潘某人SEO不建议在网页添加页面,广告应该要待站点有了一定权重之后适当添加,更为合适。

链接重要程度

目录层级——浅层优先:在判断链接重要程度时,百度Spider会遵循浅层优先的原则。所以站点如果没有足够多的内容支撑的时候,就不要开辟过多的栏目和目录。
链接站内受欢迎程度:除了目录层级外,链接在站内的受欢迎程度也是判断其重要程度的一个重要指标。如果一个页面被站点很多页面中添加为内链也更容易被搜索引擎抓取建库。
因此,重复内容的网页,在互联网上已有的内容,必然很难在被再收录。加载速度过慢的网页,也有可能被当作空短页面处理,网站加载速度非常关键,需要做到3秒以内,理想值是1.5秒内。

建库与索引

百度蜘蛛抓了多少页面并不是最重要的,重要的是有多少页面被建索引库。并且搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料。
目前60%的检索需求只调用重要索引库即可满足,这也就是很多网站收录量很高,但是流量很一般,甚至收录少的站点反而流量更高。
因此,站长们要理想看待收录量,一味的追求收录量而忽视了内容的质量,就有点舍本逐末。一定要对内容进行把控,提升进入到重要索引库内容的占比是获得流量的关键。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seoxinde/1063yuanli

相关文章

  • 网站移动端网页适配那种方式好呢?

    移动适配

    网站移动端网页适配那种方式好呢?何规划移动端,是自适应的方式,还是独立移动站点的方法,会在SEO优化上面具有更大的优势呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1663
    • 移动适配
  • 新站不收录的原因

    新站不收录

    网站收录的重要性不言而喻,对于SEO优化来说,能够获得稳定的收录增长是最基本的。那么是哪些因素导致新站不收录呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1336
    • 新站不收录
  • 作为一名SEOER,你是否懂得一门编程语言

    seo优化与编程

    作为一名SEOER,你是否懂得一门编程语言,那么哪门编程语言更加合适呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1006
    • seo优化与编程
  • 网站被恶意泛解析的解决方法

    恶意泛解析解决

    什么是泛域名解析,网站被恶意泛解析的解决方法。通过site对某网站进行查询的时候,发现突然多了许多的陌生二级域名页面,经过网上大量搜索才知道,这都是因为域名被恶意泛解析后导致的后果。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1544
    • 恶意泛解析解决
  • SEO优化内容的发展趋势

    SEO优化

    2022-07-14百度搜索资源平台发布了打击盗版网文站点公告,从中其实可以对seo未来的发展趋势有了大概的预测。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 753
    • SEO优化
  • 长期不收录的页面如何处理?

    收录

    相信大家在日常的SEO优化工作中必然会遇到网站页面不收录的问题,那么我们应该如何得到正确对待和处理这些长期不收录的页面,出现问题不是最可怕的,可怕的是采取了错误的处理方式,加剧了问题和引出了更多的问题。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 907
    • 收录
  • wordpress建站怎么样,适合SEO优化吗

    wordpress建站

    wordpress建站是非常不错的,非常使用于新手,可以不写一句代码,快速的搭建属于自己的一个站点,并且wordpress拥有大量的模板插件,不但可以满足美观的展示效果,大量的插件支持也可以满足基本的SEO优化需求。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1778
    • wordpress建站
  • 低成本让网站资源加载速度提升的方法

    加载速度,网站速度

    分享一个低成本的方法,让网站速度提升的方法,通过提升网站速度提升用户体验,从而获得更好的seo优化效果。通过资源的预获取,可以实现在服务器配置不变的情况下提升网站资源加载速度的提升。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1014
    • 加载速度
    • 网站速度
  • 原创内容收录更快吗

    原创内容的收录

    分析下,原创内容在网站优化时对于收录的作用,从深层阐述了,原创性高不一定就可以获得好的收录和排名。对于seo优化来说正真需要的并不是简单的原创,而是需要........

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2901
    • 原创内容的收录
  • 如何增加关键词密度

    关键词密度

    关键词密度需要控制得当,关键词密度不同行业也是不同的不可人云亦云,还得自己通过不断试验测试分析,同时关键词铺排要自然分散,增加关键词密度不是堆砌关键词。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1920
    • 关键词密度
  • SEO优化做得好,一半功劳是“抄”来的?

    SEO优化

    你是不是也曾为SEO优化头疼不已?看着别人的网站排名飙升,自己的却纹丝不动,焦虑感油然而生。别急,今天潘某人SEO分享一个颠覆你认知的观点:SEO优化最快的成功方式,竟然是“抄袭借鉴”!借鉴成功者经验,相当于站在巨人的肩膀上,直接跳过无效努力,直奔结果。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 334
    • SEO优化
  • 索引量下降如何应对处理

    百度索引量

    百度索引量下降的原因,站长们应该如何正确的看待索引的增长呢?站长们乐此不疲的追求高索引量,会不会是站长们太把它当一回事了。今天就来谈谈索引量那边事我们如何正确的看待索引量。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1494
    • 百度索引量
  • SEO优化前景揭秘,别再被忽悠?

    SEO优化

    随着社交媒体、短视频等新兴渠道的兴起,使得一些用户可能不再完全依赖搜索引擎来获取信息,导致SEO的流量来源受到一定冲击。也就越来越多的人开始唱衰SEO及放弃SEO优化,那么SEO真的大势已去吗?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 548
    • SEO优化
  • 【重要】搜索资源平台清退风险资源

    搜索资源平台,seo

    如果站点从事百度SEO优化,那么这条消息必看,避免对日常的优化工作产生影响,未及时处理将直接影响百度搜索资源平台的账户。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1057
    • 搜索资源平台
    • seo
  • nofollow标签对于网站优化的作用

    nofollow标签,内链优化,外链优化

    nofollow标签对于网站优化的作用,针对nofollow标签在外链优化以及内链优化中的作用,以及注意事项简单的分析了其作用,对于网站优化还是十分重要的!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1739
    • nofollow标签
    • 内链优化
    • 外链优化
  • SEO列表页如何做,你的方法正确吗?

    列表页,SEO优化,栏目页

    列表页的优化可以说是充满了奥秘,不管是内容层面还是SEO优化层面。如果思路出现了问题,那么自然不可避免影响整体的效果,今天潘某人SEO通过几个重要的纬度和大家探讨下如何正确的优化网站列表页。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1023
    • 列表页
    • SEO优化
    • 栏目页
  • 网站排名优化贵在长期稳定坚持

    网站排名优化思路

    如果一个网站想要稳定的流量,那么不是靠一朝一夕可以迅速做到的,因此网站排名优化的重点在于长期稳定坚持的输出高质量的内容的,一个量变到质变的过程。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1616
    • 网站排名优化思路
  • SEO内容优化劣迹行为你有吗

    SEO内容优化

    不管你的站点是否需要SEO优化,都需要的是优质的内容,得用户者得流量。而在实际的运行中却十分不理想,普遍的存在着垃圾制造的行为。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1086
    • SEO内容优化