首页 >  SEO >  SEO心得 >  正文

一文带你了解百度搜索引擎抓取收录的原理

 作者:潘某人SEO
661

作为一个seo从业者三句话不离收录,但是大家对于收录的原理真的了解吗,相信很多了解到的就是蜘蛛来抓取然后内容收录,但其实这种理解是比较片面的,了解搜索引擎的收录原理对于提升收录是非常有帮助的。
例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider等。今天潘某人SEO就以百度搜索引擎为例来简单的介绍下搜索引擎的抓取建库的原理。

抓取原理

spider抓取系统的基本流程,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。
百度Spider抓取系统的基本框架
图片来源:百度搜索资源平台
如上图所示,是百度搜索引擎抓取系统的基本原理,从图中可以看出链接的发现和抓取形成一个循环,因此百度搜索引擎抓取系统又称为抓取环。

抓取建库流程

下面举一个例子来理解这个抓取环,当潘某人SEO的站点上线之后,我们将站点的首页提交给了搜索引擎,百度搜索引擎的爬取系统会受到爬取这个url的命令。
然后会对这一页面进行抓取,将抓取到的内容进行网页解析,这一过程会对内容根据算法进行解析,决定是否建库;同时还会对这页面的包含的所有url去重提取,并提交到搜索引擎的总链库。
总链库则是搜索引擎需要进行抓取链接的仓库,链接的来源可以是蜘蛛抓取内容的时候发现的链接,也可以是来源站点通过百度资源平台提交的链接。
链接选取系统,会根据算法选取出需要抓取的链接,交给爬取系统,周而复始,一直循环着,不断的抓取着互联网上的内容。
所以,站点如果内容要被抓取,那么必须保证站点的结构设计合理,蜘蛛在抓取内容的时候可以不断的获取到更多内容,合理的网站结构设计,可以提升搜索引擎的抓取效率,避免信息孤岛;对于一些无法靠抓取环被抓取的内容,就需要站点主动及时的提交给搜索引擎。

爬取与建库

经常会有人问为什么站点抓取是正常的但是就是一直不收录,相信很多站点都有这个困扰。首先我们先需要明确一点,搜索引擎蜘蛛抓取页面并不代表一定会对内容进行建库,也就是大家常说的收录。
在建库环节前,Baiduspider会对页面进行初步内容分析和链接分析,通过内容分析决定该网页是否需要建索引库,而最终是否入库是多种原因共同决定的,下面潘某人SEO就为你列举出主要的因素,主要是对用户的价值和链接重要程度两方面的因素。

对用户的价值

内容独特性:内容在搜索引擎上近似内容少,并且内容是有价值的信息,能够满足用户的搜索需求,提升用户体验。
主体突出:网页的主题应该明确且突出,避免因为内容不突出而被搜索引擎误判为空短页面或不进行抓取。一个主题明确的页面更容易被用户理解和接受,也更容易被搜索引擎识别和索引。
内容丰富性:除了独特性外,内容的丰富性也是非常重要的,页面的内容更加的全面可以为用户提供更多价值,也就更容易获得搜索引擎的认可。
广告适当性:网站的广告布局和比例需要满足百度搜索引擎用户体验的白皮书的要求,并且广告比例也少的站点的页面,在搜索引擎的评价会更高;尤其是对于一些新站潘某人SEO不建议在网页添加页面,广告应该要待站点有了一定权重之后适当添加,更为合适。

链接重要程度

目录层级——浅层优先:在判断链接重要程度时,百度Spider会遵循浅层优先的原则。所以站点如果没有足够多的内容支撑的时候,就不要开辟过多的栏目和目录。
链接站内受欢迎程度:除了目录层级外,链接在站内的受欢迎程度也是判断其重要程度的一个重要指标。如果一个页面被站点很多页面中添加为内链也更容易被搜索引擎抓取建库。
因此,重复内容的网页,在互联网上已有的内容,必然很难在被再收录。加载速度过慢的网页,也有可能被当作空短页面处理,网站加载速度非常关键,需要做到3秒以内,理想值是1.5秒内。

建库与索引

百度蜘蛛抓了多少页面并不是最重要的,重要的是有多少页面被建索引库。并且搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料。
目前60%的检索需求只调用重要索引库即可满足,这也就是很多网站收录量很高,但是流量很一般,甚至收录少的站点反而流量更高。
因此,站长们要理想看待收录量,一味的追求收录量而忽视了内容的质量,就有点舍本逐末。一定要对内容进行把控,提升进入到重要索引库内容的占比是获得流量的关键。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seoxinde/1063yuanli
相关文章
  • 内链算法快,快速提升关键词排名

    内链算法

    内链算法快,快速提升关键词排名?内链是搜索引擎200多项算法中对网站打分的一个重要算法,利用内链算法快速提升权重获得排名。但是做内链的思维和方向你们知道怎么做是有利内链算法加分的。内链不能随便乱链,

    1661
    • 内链算法
  • HTML5标签让你的内容在搜索引擎中脱颖而出

    HTML5,语义化标签

    HTML5标签的正确使用不仅能够提升文章的结构清晰度,还能增强内容的可读性和搜索引擎的友好性。HTML5引入了许多新的语义化标签,这些标签帮助搜索引擎更好地理解网页的结构和内容。

    383
    • HTML5
    • 语义化标签
  • SEO优化中权重和栏目的关系

    SEO优化,权重优化

    你知道网站首页、栏目页、详情页之间是什么关系,对于权重又有什么影响呢?

    1357
    • SEO优化
    • 权重优化
  • 网站SEO过度优化的危害

    SEO过度优化

    过度的SEO优化是很多站点都存在的问题,现在很多站点的SEO优化已经是病态的,一天到晚执着了页面结构、关键词布局、内链、外链、友链以及一些技术手法,而忽视了最关键词的内容的优化

    1268
    • SEO过度优化
  • 移动站SEO优化要点

    移动站优化

    进入2015年之后,很多用户从PC端向移动端迁移.但目前很多企业并没有建设专门的移动站,这也使得移动手机网站的SEO优化工作还处于探索阶段。分享移动站SEO优化的七个方法,具体可以从这几方面来了解(此经验适合新手)

    2015
    • 移动站优化
  • SEO优化中常见的问题,你中了几个?

    SEO优化

    在做SEO的过程中,还有几个最常见的问题,问题不大影响却不小,下面列举几个经常在网站优化中忽略而犯的错误,看看你中了个!

    679
    • SEO优化
  • 网站使用重复模版对SEO优化的影响

    SEO优化

    网站优化第一步就是建站,对于大多数的公司网站都是通过外包来做,这类站点我们就会遇到一个问题,网站的代码、样式都是套模板,都是在相同版本下修改衍生出来的;最终出现的问题就是网站模板的重复度比较高。许多人会遇到这样一个问题:相同或相似的网站模板是否会对SEO优化产生负面影响?

    41
    • SEO优化
  • 链接权重分析HITS算法的不足之处

    HITS算法的不足之处,链接权重分析

    搜索引擎链接权重分析,主要参考。HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。HITS算法的不足之处,引用越多高质量页面的网页,其链接权威度越高。

    2296
    • HITS算法的不足之处
    • 链接权重分析
  • 交换链接的作弊手段

    友链作弊方法

    交换链接的作弊手段有哪些,如果你不知道这些作弊方式,那么你可能一直在蒙在鼓里被人占便宜。上链后删除、使用JS代码调用的友情链接、链接使用Nofollow标签、使用假的页面等都是常见的友链的作弊方法。

    1465
    • 友链作弊方法
  • 站内SEO图片优化技巧

    站内SEO图片优化

    网站内部会出现大量的图片内容,发现搜索引擎对于图片的识别是不太完善的,所以做好图片SEO优化非常关键了。站内SEO图片优化主要是给搜索引擎留下好印象,让它能够顺利的爬取网站链接,收录网站页面。小编认为图片SEO优化对于网站整体的排名还是很有影响的,下面来看看具体内容:

    1162
    • 站内SEO图片优化
  • h1标签对seo优化重要吗

    H标签SEO优化

    H标签可以通过重要程度分为H1>H2>H3>H4>H5>H6.........,那么很多都会想到既然H1标签可以突出页面的重点,那么岂不是对于想要优化的关键词我们可以使用H1标签来突出它?

    1490
    • H标签SEO优化
  • SEO必看,搜索引擎是如何提取关键词?

    关键词,搜索引擎

    了解搜索引擎是如何提取关键词,是每个SEO必须必须知道的,否则很容易一不小心优化了个寂寞。如果你认为关键词就是自己在页面keywords中设置的关键词,或者只要重复某个词就可以成为关键词,那你一定要听劝看完这篇文章。

    1085
    • 关键词
    • 搜索引擎
  • 百度爬虫工作原理

    百度蜘蛛原理,抓取频次

    百度爬虫是如何工作的,如何才能提升网站的抓取频次呢?抓取频次的影响因素有哪些?

    1229
    • 百度蜘蛛原理
    • 抓取频次
  • 什么是链接农场,及其对于网站的危害

    链接农场,外链

    链接农场对于网站优化的威胁超级大,不但自己不该做,有的时候防不甚防一不小心掉进链接农场,很多时候很多站点做着做着不知不觉就变成链接农场了

    2391
    • 链接农场
    • 外链
  • SEO应聘注意事项

    SEO应聘

    SEO优化是一项充满着愚公移山精神的工作,特点就是做了不一定有效果,并且见效特别慢,这也导致了很多SEO从业者在这个岗位上很难稳定,因此在前期应聘的时候就需要注意以下方面来避免它日的悲剧。

    711
    • SEO应聘
  • 学习seo网站优化难吗

    seo网站优化难吗

    对于SEO优化这个岗位可以说任何一个学科都不涉及,因此SEO优化基本都是零基础入门的,那么SEO优化学习难吗?如何才能够学好SEO优化呢?也许你是参加了培训机构,也许你是自学SEO优化。

    1131
    • seo网站优化难吗
  • 搜索引擎网页质量判定的标准

    搜索引擎,网页质量

    搜索引擎的根本是什么,是内容是对于用户搜索需求满足,这是搜索引擎最根本的逻辑,后续的一切也都是根据这个方向展开的。根据《百度搜索引擎网页质量白皮书》,站长们在百度搜索引擎优化中如何才能输出高质量内容呢?

    692
    • 搜索引擎
    • 网页质量
  • 老域名建站对seo真的有好处吗

    老域名建站,seo优化,新站考核期

    很多站点的时候会选用权重高的老域名,可以获得更好的效果,但是事实真的是这样吗?老域名建站大部分的情况下不但没有正向作用,还会有负面的作用,那么老域名建站需要注意哪些方面呢?

    912
    • 老域名建站
    • seo优化
    • 新站考核期
-- 这已经是底线了,看看别的把! --