一文带你了解百度搜索引擎抓取收录的原理

作为一个seo从业者三句话不离收录,但是大家对于收录的原理真的了解吗,相信很多了解到的就是蜘蛛来抓取然后内容收录,但其实这种理解是比较片面的,了解搜索引擎的收录原理对于提升收录是非常有帮助的。
例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider等。今天潘某人SEO就以百度搜索引擎为例来简单的介绍下搜索引擎的抓取建库的原理。

抓取原理

spider抓取系统的基本流程,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。
百度Spider抓取系统的基本框架
图片来源:百度搜索资源平台
如上图所示,是百度搜索引擎抓取系统的基本原理,从图中可以看出链接的发现和抓取形成一个循环,因此百度搜索引擎抓取系统又称为抓取环。

抓取建库流程

下面举一个例子来理解这个抓取环,当潘某人SEO的站点上线之后,我们将站点的首页提交给了搜索引擎,百度搜索引擎的爬取系统会受到爬取这个url的命令。
然后会对这一页面进行抓取,将抓取到的内容进行网页解析,这一过程会对内容根据算法进行解析,决定是否建库;同时还会对这页面的包含的所有url去重提取,并提交到搜索引擎的总链库。
总链库则是搜索引擎需要进行抓取链接的仓库,链接的来源可以是蜘蛛抓取内容的时候发现的链接,也可以是来源站点通过百度资源平台提交的链接。
链接选取系统,会根据算法选取出需要抓取的链接,交给爬取系统,周而复始,一直循环着,不断的抓取着互联网上的内容。
所以,站点如果内容要被抓取,那么必须保证站点的结构设计合理,蜘蛛在抓取内容的时候可以不断的获取到更多内容,合理的网站结构设计,可以提升搜索引擎的抓取效率,避免信息孤岛;对于一些无法靠抓取环被抓取的内容,就需要站点主动及时的提交给搜索引擎。

爬取与建库

经常会有人问为什么站点抓取是正常的但是就是一直不收录,相信很多站点都有这个困扰。首先我们先需要明确一点,搜索引擎蜘蛛抓取页面并不代表一定会对内容进行建库,也就是大家常说的收录。
在建库环节前,Baiduspider会对页面进行初步内容分析和链接分析,通过内容分析决定该网页是否需要建索引库,而最终是否入库是多种原因共同决定的,下面潘某人SEO就为你列举出主要的因素,主要是对用户的价值和链接重要程度两方面的因素。

对用户的价值

内容独特性:内容在搜索引擎上近似内容少,并且内容是有价值的信息,能够满足用户的搜索需求,提升用户体验。
主体突出:网页的主题应该明确且突出,避免因为内容不突出而被搜索引擎误判为空短页面或不进行抓取。一个主题明确的页面更容易被用户理解和接受,也更容易被搜索引擎识别和索引。
内容丰富性:除了独特性外,内容的丰富性也是非常重要的,页面的内容更加的全面可以为用户提供更多价值,也就更容易获得搜索引擎的认可。
广告适当性:网站的广告布局和比例需要满足百度搜索引擎用户体验的白皮书的要求,并且广告比例也少的站点的页面,在搜索引擎的评价会更高;尤其是对于一些新站潘某人SEO不建议在网页添加页面,广告应该要待站点有了一定权重之后适当添加,更为合适。

链接重要程度

目录层级——浅层优先:在判断链接重要程度时,百度Spider会遵循浅层优先的原则。所以站点如果没有足够多的内容支撑的时候,就不要开辟过多的栏目和目录。
链接站内受欢迎程度:除了目录层级外,链接在站内的受欢迎程度也是判断其重要程度的一个重要指标。如果一个页面被站点很多页面中添加为内链也更容易被搜索引擎抓取建库。
因此,重复内容的网页,在互联网上已有的内容,必然很难在被再收录。加载速度过慢的网页,也有可能被当作空短页面处理,网站加载速度非常关键,需要做到3秒以内,理想值是1.5秒内。

建库与索引

百度蜘蛛抓了多少页面并不是最重要的,重要的是有多少页面被建索引库。并且搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料。
目前60%的检索需求只调用重要索引库即可满足,这也就是很多网站收录量很高,但是流量很一般,甚至收录少的站点反而流量更高。
因此,站长们要理想看待收录量,一味的追求收录量而忽视了内容的质量,就有点舍本逐末。一定要对内容进行把控,提升进入到重要索引库内容的占比是获得流量的关键。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seoxinde/1063yuanli

相关文章

  • 外链对SEO优化的影响

    外链SEO优化

    SEO优化中核心的一个过程就是发外链,不论是过去还是现在,外链都是一个备受争议的话题,有人说外链对SEO优化没有什么用了,而有的人又对做外链情有独钟。那么外链到底还有没有用,我们在发布外链的时候该注意什么,怎样才能获得优质的外链呢。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1488
    • 外链SEO优化
  • 网站被镜像,如何向百度反馈?

    网站被镜像

    最近收到不少站长反馈被镜像的问题,网站被镜像后,站点流量、关键词都会受到影响,是很多网站深恶痛绝的现象,站长通过禁止正文被粘贴、禁止镜像站IP都无法彻底杜绝被镜像现象。被镜像该如何维权,学堂君整理以下投诉攻略:

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1009
    • 网站被镜像
  • 出图率提升网站点击率关键

    出图率,网站点击率

    但是在同一页面可以展示的,关键词的飘红程度不会有很大的差距,毕竟关键不飘红也不可能有展示的机会。所以标题及摘要显示的内容对于用户的吸引力,更为的关键。出图率是更为关键的,对提升点击率。图片和文字对于人视觉上的吸引力,图片是远高于文字的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 955
    • 出图率
    • 网站点击率
  • 如何看网站日志对于seo优化的重要性

    网站日志的作用

    如何看网站日志对于seo优化的重要性!可以及时的发现网络攻击,以及采集行为;可以更好保护站点的安全性,更加有利于网站的seo优化。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1979
    • 网站日志的作用
  • 如何屏蔽某些页面的抓取,但是让页面中链接正常抓取

    meta标签屏蔽页面抓取

    如何屏蔽某些页面的抓取,但是让页面中链接正常抓取,对于这种情况,使用meta标签来进行屏蔽页面的抓取,可以变得更加的有效。相比常用的robots文件屏蔽,或者nofollow标签屏蔽的实用性更加的广。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3365
    • meta标签屏蔽页面抓取
  • SEO优化之网站抓取频次

    抓取频次

    今天我们要聊的是每一个想要提升自己网站搜索引擎优化(SEO)效果的人都应该了解的一个重要概念——网站抓取频次。你是否曾经好奇过,为什么有的网站内容更新后能够迅速被搜索引擎发现,而你的却需要等待许久?这一切都与抓取频次息息相关。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 355
    • 抓取频次
  • AI搜索会替代搜索引擎吗?

    AI搜索,搜索引擎,seo

    各大搜索引擎公司确实在积极研发并推出基于人工智能(AI)的搜索功能,不仅能提供更准确、更个性化的搜索结果,还能够理解复杂的查询语句,甚至提供对话式的互动,使得搜索过程更加自然和高效,未来AI搜索会替代掉搜索引擎呢!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1281
    • AI搜索
    • 搜索引擎
    • seo
  • 何为百度快照劫持,如何避免?

    百度快照劫持

    百度快照劫持是利用黑客技术拿到了你的ftp,或者应用网站漏洞,来篡改网站的网页内容,主要的通过在网页中插入js代码实现跳转,而当你检查网站代码的时候很难发现问题所在,如果没有一定的技术水平的情况下。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1306
    • 百度快照劫持
  • 原创内容,收录的关键?

    原创

    大家是否经常听到,很多站点每天都坚持更新原创文章,但是收录和排名并不理想。在众多因素中,原创性被普遍认为是影响内容收录速度的关键因素之一。那么,原创内容是否真的能够更快地被搜索引擎收录呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 483
    • 原创
  • 如何一本正经的胡说八道,而你深信不疑

    确认偏误,认知闭合

    人们面对未知内容时选择相信的现象,是一个涉及心理学、社会学和认知科学的复杂议题。认知闭合需求、情感补偿机制、确认偏误、群体极化效应等诸多因素,有趣的可以进一步的去了解。那么我们又如如何抵御,避免自身陷入其中。做一个聪明人,有判断力的能人,自己可以不是那个胡说八道的人,但是决不能成为一本正经胡说八道的受众群体。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 5155
    • 确认偏误
    • 认知闭合
  • 权重域名对SEO的影响大吗?

    权重域名,老域名建站

    一直有一种说法建站要用权重高的域名,可以对站点的SEO优化起到很好的促进作用,那么事实是真的如此吗?今天就来探究下。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1155
    • 权重域名
    • 老域名建站
  • 如何让搜索引擎识别页面是PC还是移动端

    SEO页面类型识别

    如何让搜索引擎识别页面是PC还是移动端,让蜘蛛有效的识别页面类型,可以使得抓取更有效率,同时给用户在不同设备访问时,给到正确的对应页面,提升用户体验。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3162
    • SEO页面类型识别
  • 百度闪电算法,移动页打开速度

    百度闪电算法

    2017年10月初,“闪电算法”上线,移动搜索页面首屏加载时间将影响搜索排名。移动网页首屏在2秒之内完成打开的,在移动搜索下将获得提升页面评价优待,获得流量倾斜;同时,在移动搜索页面首屏加载非常慢(3秒及以上)的网页将会被打压。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2374
    • 百度闪电算法
  • 怎么增加站长工具关键词库

    站长关键词库

    了解了什么是关键词库,接下来就要了解到关键词的意义了。关键词库和网站的权重是息息相关的,大家可以看一下网站权重的计算方法就明白了。简单的讲权重是根据预估流量来划分的,而预估流量就是来源于关键词库中的关键词的排名所决定的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1257
    • 站长关键词库
  • MIP Cache 服务下线通知

    MIP Cache关闭

    MIP Cache 服务下线通知,MIP Cache 服务至目前为止已上线了三年多,为 Web 生态输出了优质资源和更为快速的网页浏览体验。2020年6月1日 - 2020年6月30日:关闭站长平台 MIP 入口,逐步清退下线 MIP Cache 服务。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2131
    • MIP Cache关闭
  • 域名的长短会影响排名吗

    域名对权重得影响

    域名的长短、以及域名后缀会影响权重吗?这个问题困扰着很多人,其实域名只要没有黑历史,真的不要介意那么多,我们需要看穿网站优化得本质需要得是什么!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2213
    • 域名对权重得影响
  • 网站为什么不收录

    网站不收录

    有些站点不管怎么折腾就是不收录,那你知道不收录的原因吗?我们如何知道站点不收录的原因。网站不收录的原因,大致可以分类两类:内容没有被抓取到和网站存在违规不符合收录标准。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1055
    • 网站不收录
  • 学会这招,你再也不用头疼的挖掘关键词

    关键词

    在SEO优化的过程中,关键词挖掘是一项至关重要的任务。通过精准地定位目标关键词,网站能够更有效地吸引目标流量,提升搜索引擎排名,进而实现流量的增长。关键词挖掘是seo优化中非常重要的一项工作。可以说每个seo都有自己的挖掘关键词的方法,今天潘某人SEO分享的关键词的挖掘方法可以说适合任何的站点,并且可行性及高。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 5000
    • 关键词