搜索引擎检索原理解析

上期讲到了搜索引擎是如何抓取内容的,今天就来讲下搜索引擎的下半部分,搜索引擎的内容抓取的目的就是为了实现用户的搜索。对于网站来说,站点内容搜索是通过关键词来匹配,找出关联性最大的结果进行展示,搜索引擎的亦是如此。

但是搜索引擎面对整个网络,几乎抓取了互联网上的大部分内容,如果只是简单的粗暴的存储抓取到的内容,那么存储成本会很大,大量的重复内容效率会很低;对于用户搜索的时候因为内容过于庞大,搜索效率很低并且结果不精准,这就要依托于搜索引擎的算法加持。

对于搜索引擎面对最大的问题就是匹配的精准性,对于搜索引擎存在意义就是解决用户的搜索需求,但是机器毕竟是机器,及时现在的人工智能其实也是智障,所以就需要通过算法更加精准的把关键词和文档关联起来。

对于计算机来说,目前来说不可能读懂文档的内容,只能把文档分成若干的片段,经过算法分析得出文档的和各个关键词的关联性。检索系统主要包含了五个部分,如下图所示:

搜索引擎搜索匹配流程

(1)Query串切词分词即将用户的查询词进行分词,对之后的查询做准备,以“10号线地铁故障”为例,可能的分词如下(同义词问题暂时略过):

  • 10 0x123abc

  • 号 0x13445d

  • 线 0x234d

  • 地铁 0x145cf

  • 故障 0x354df

(2)查出含每个term的文档集合,即找出待选集合,如下:

  • 0x123abc 1 2 3 4 7 9…..

  • 0x13445d 2 5 8 9 10 11……

  • ……

  • ……

(3)求交,上述求交,文档2和文档9可能是我们需要找的,包含0x123abc0x123abc的文档有1 2 3 4 7 9,包含0x13445d的文档有2 5 8 9 10 11;只有文档2和9包含了最多的分词,搜索引擎关键词搜索的匹配就是将搜索关键词分词后,然后对各个文档出现的分词的数量和频次进行求交。

整个求交过程实际上关系着整个系统的性能,这里面包含了使用缓存等等手段进行性能优化;

(4)各种过滤,举例可能包含过滤掉死链、重复数据、色情、垃圾结果以及你懂的;

(5)最终排序,将最能满足用户需求的结果排序在最前,可能包括的有用信息如:网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等等。

到了这里大家可能觉得那么直接堆砌关键词,关键词密度高了,那么关键词求交的几率不就高了,排名不就有了吗?但是求交是对于数据最基础的筛选,只能说内容的关联性到了,有机会参与排名;但是最终的排名第五小点是非常关键词的,现在搜索引擎对于用户体验非常的注重,所以还有算法评估着网站的用户行为数据反馈着网页的质量,更好的确认网页的质量来决定最终的排名。



申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seozhishi/781

相关文章

  • 搜索引擎网页质量判定的标准

    搜索引擎,网页质量

    搜索引擎的根本是什么,是内容是对于用户搜索需求满足,这是搜索引擎最根本的逻辑,后续的一切也都是根据这个方向展开的。根据《百度搜索引擎网页质量白皮书》,站长们在百度搜索引擎优化中如何才能输出高质量内容呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 914
    • 搜索引擎
    • 网页质量
  • 百度spider抓取过程中涉及的网络协议

    百度spider,抓取

    刚才提到百度搜索引擎会设计复杂的抓取策略,其实搜索引擎与资源提供者之间存在相互依赖的关系,其中搜索引擎需要站长为其提供资源,否则搜索引擎就无法满足用户检索需求;而站长需要通过搜索引擎将自己的 内容推广出去获取更多的受众。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 731
    • 百度spider
    • 抓取
  • 搜索引擎高级搜索指令大全

    高级搜索指令大全

    搜索引擎高级搜索指令大全。普通的搜索肯定需要会,但是有一些特殊的搜索是SEO必修课程。下面就来介绍一下搜索引擎的特殊搜索——高级搜索指令。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1937
    • 高级搜索指令大全
  • 索引量变化存在的误区

    索引量

    索引量是那个站长都会关注的点,对于SEO优化来说是非常重要的指标,但是很多人对于索引量的变化存在错误的认知,为大家总结了常见的对于索引量变化的误区。要正确的认知索引量变化的影响,首先要明白什么是索引量。索引量简单讲就是站点内容经过搜索引擎抓取,算法分析之后符合标准,建立索引进入索引库的数量,内容只有进入的索引库是进行排名展现的必要条件。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1022
    • 索引量
  • AI搜索会替代搜索引擎吗?

    AI搜索,搜索引擎,seo

    各大搜索引擎公司确实在积极研发并推出基于人工智能(AI)的搜索功能,不仅能提供更准确、更个性化的搜索结果,还能够理解复杂的查询语句,甚至提供对话式的互动,使得搜索过程更加自然和高效,未来AI搜索会替代掉搜索引擎呢!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1387
    • AI搜索
    • 搜索引擎
    • seo
  • 爬行、抓取、索引、收录的区别

    爬行,抓取,索引,收录

    收录对于站长来说是在熟悉不过的了,但是很多人对于收录还是存在一些理解上的偏差,要正确的理解收录,那么必须要对搜索引擎的爬行、抓取、索引、收录几个概念有正确的认知,对于掌握搜索引擎的收录过程是先决条件。爬行、抓取、索引、收录,是搜索引擎的收录内容的一个流程。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2214
    • 爬行
    • 抓取
    • 索引
    • 收录
  • 揭秘搜索引擎蜘蛛IP:如何轻松获取所有搜索引擎蜘蛛IP?

    蜘蛛IP,搜索引擎

    在搜索引擎优化(SEO)的世界中,搜索引擎蜘蛛的IP地址如同“隐形访客”的身份证号码。掌握这些IP不仅能帮助你精准识别真实蜘蛛,还能优化网站抓取策略、过滤垃圾流量,甚至预判网站的收录趋势。那么,如何高效获取并验证这些IP?今天潘某人SEO将为带你深入探索!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 528
    • 蜘蛛IP
    • 搜索引擎
  • 必应搜索引擎如何进行手动URL提交

    URL提交,必应

    必应搜索引擎找不要手动URL提交入口的速度来看解决方案。如何在必应搜索引擎上提交站点的URL链接呢?有很多小伙伴反馈,在必应站长工具后台找不到手动提交URL的入口,今天潘某人SEO就来分享下,如何在必应搜索引擎站长后台进行手动URL连接的提交。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 6628
    • URL提交
    • 必应
  • 搜索引擎蜘蛛爬虫名大全

    搜索蜘蛛大全

    对于seo们清楚掌握主流搜索引擎的爬虫名称十分的关键,掌握各大搜索引擎蜘蛛爬虫,对我们开展网站SEO优化具有挺大作用;作者搜集了各大搜索引擎的蜘蛛爬虫UA,便于你需要时查看。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2280
    • 搜索蜘蛛大全
  • SEO关键词你选对了吗?分享选词妙招!

    SEO,关键词,选词

    ​关键词是SEO优化核心之一,也是用户、搜索引擎和站点之间的桥梁,用户通过在搜索引擎使用关键词搜索所需的内容,搜索引擎通过关键词实现内容的索引和排序的建立。潘某人SEO常用的选词方法分享给大家。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 800
    • SEO
    • 关键词
    • 选词
  • 百度搜索引擎优先建重要库的原则

    搜索引擎,百度spider

    Baiduspider抓了多少页面并不是最重要的,重要的是有多少页面被建索引库,即我们常说的“建库”。众所周知,搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料。目前60%的检索需求只调用重要索引库即可满足,这也就解释了为什么有些网站的收录量超高流量却一直不理想。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 875
    • 搜索引擎
    • 百度spider
  • 别再这么使用sitemap,可能正在毁掉你的站点

    sitemap,网站地图

    Sitemap(站点地图)本身是一个强大的工具。它以结构化的XML格式,清晰地列出网站上希望搜索引擎索引的所有重要页面链接。对于大型、结构复杂或新上线的网站,提交Sitemap能显著帮助搜索引擎更快地发现站点的内容。然而,任何工具都有其两面性。Sitemap这把“钥匙”,既能打开搜索引擎友好抓取的大门,也可能为不速之客大开方便之门。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 526
    • sitemap
    • 网站地图
  • 搜索引擎的基础原理知识

    搜索引擎原理

    搜索引擎的基础知识,从抓取、过滤筛选、建立索引及输出结果,这几个步骤的工作原理。对于SEO优化来说如果连搜索引擎的基本工作原理都不清楚,这样是一件非常糟糕的事情。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1396
    • 搜索引擎原理
  • 百度搜索引擎Spider抓取系统的基本框架

    搜索引擎,百度spider

    互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider等。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1075
    • 搜索引擎
    • 百度spider
  • SEO与付费SEM推广哪个好?

    SEO优化,SEM推广

    网站的推广方式只要有两种SEO(搜索引擎优化)和SEM(搜索引擎竞价推广),两者同时通过在搜索关键词时在搜索引擎上获得靠前的排名,增加展现几率来获取用户的点击。那么SEO与付费SEM推广哪个好呢,那种推广方式才更加适合我们呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1068
    • SEO优化
    • SEM推广
  • 收录和索引别搞混了!

    收录,索引

    ​我敢说很多人连收录和索引都会搞错,当你觉得这么简单的怎么可能错的时候,搞不好你就是其中之一,今天就你了解下收录和索引的区别,各个搜索引擎大同小异,以百度搜索引擎为例。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1286
    • 收录
    • 索引
  • “搜索引擎蜘蛛分权重吗?”——揭秘SEO圈里的重大误区

    蜘蛛,搜索引擎

    在SEO(搜索引擎优化)的世界里,有一句话几乎每个新手都听过:“你这个网站权重太低,蜘蛛都不来爬!”于是很多人开始焦虑:“是不是我网站没权重,搜索引擎蜘蛛根本瞧不上我?”“大站发文章秒收录,我这小站三天都不来爬,是不是被歧视了?”

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 463
    • 蜘蛛
    • 搜索引擎
  • SEO优化全流程解析:从零开始,打造高效搜索引擎友好网站

    搜索引擎

    网站SEO(搜索引擎优化)已成为企业获取流量、提升品牌知名度的关键策略之一。然而,对于许多初学者而言,如何系统地进行SEO优化仍是一个复杂的问题。今天,潘某人SEO就来详细探讨一下SEO优化的基础流程,帮助您从无到有建立一个高效的搜索引擎友好网站。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 658
    • 搜索引擎
  • HTML5标签让你的内容在搜索引擎中脱颖而出

    HTML5,语义化标签

    HTML5标签的正确使用不仅能够提升文章的结构清晰度,还能增强内容的可读性和搜索引擎的友好性。HTML5引入了许多新的语义化标签,这些标签帮助搜索引擎更好地理解网页的结构和内容。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 823
    • HTML5
    • 语义化标签
  • TF-IDF技术在搜索引擎中的作用

    TF-IDF,搜索引擎

    TF-IDF技术在搜索引擎中的作用,事关如何更好的选择关键词,如何获得更好的排名的关键。掌握了解TF-IDF技术对于搜索引擎的作用可以让你更在SEO优化中更好如何筛选和优化关键词。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1291
    • TF-IDF
    • 搜索引擎
  • 百度SEO抓取友好性之链接发现

    百度SEO,链接提交

    ​当网站有了内容,要实现内容的收录,就需要先实现内容被搜索引擎抓取,而要实现抓取就可以让搜索引擎发现链接。对于常见搜索引擎,发现链接的方式主要有两种方式,一种是抓取获取,一种是站点的提交。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 951
    • 百度SEO
    • 链接提交
  • 巧用Robots避免蜘蛛黑洞

    Robots,蜘蛛黑洞

    搜索引擎的蜘蛛黑洞指的是搜索引擎蜘蛛在抓取站点内容的时候出现了大量雷同内容的url,导致搜索引擎蜘蛛一直被困在无限的循环中,如黑洞一般。直接的结果就会导致消耗大量的抓取资源。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1133
    • Robots
    • 蜘蛛黑洞
  • 为什么打击采集行为,采集站还是有很高权重

    采集,权重

    搜索引擎不断的打击采集行为,但是采集站点的收录排名和权重还是非常好;如果你无法理解那么你对于搜索引擎的核心不够了解,本文带你探索搜索引擎和采集的那点事,教你如果正确面对采集行为。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1209
    • 采集
    • 权重
  • 网站seo标题如何设置符合规范

    网站标题,seo规范

    在百度搜索引擎中如何规范的设置网站seo标题,不管是对于用户还是搜索引擎,网站标题是至关重要的;是用户和搜索引擎对于站点的内容了解的关键。站点首页是站点的第一印象,因此网站首页基础信息的设置是十分关键的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1916
    • 网站标题
    • seo规范
  • 各搜索引擎蜘蛛IP大全持续更新

    蜘蛛IP,引擎蜘蛛

    各搜索引擎蜘蛛IP大全持续更新,各个搜索引擎的蜘蛛ua,持续更新中。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3569
    • 蜘蛛IP
    • 引擎蜘蛛
  • 搜索引擎抓取系统概述

    搜索引擎,蜘蛛

    今天就给大家简单的介绍一下搜索引擎系统大致工作原理,内容比较多会分几次更新,大家记得关注“潘某人SEO”坐等更新。先给大家介绍下搜索引擎的基础知识:抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程三部分。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1393
    • 搜索引擎
    • 蜘蛛
  • seo优化是什么意思?

    seo优化

    什么是SEO优化,SEO(Search Engine Optimization)搜索引擎优化,通过利用搜索引擎的规则提高网站在有关搜索引擎内的自然排名,是一种不消耗额外广告费的一种推广手。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1060
    • seo优化
  • 网站内链锚文本布局方法

    锚文本优化

    当搜索引擎抓取页面时,遇到了锚文本链接进行了抓取,如果只是单纯的超链接而不是锚文本,那么对于搜索引擎那么对于链接的内容是一无所知。锚文本的价值就是可以大致的告诉搜索引擎,此链接下的内容大致什么。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1880
    • 锚文本优化
  • 如何分配抓取频次?

    如何分配抓取频次?

    如何分配抓取频次?随着搜索引擎优化,我们不完全知道搜索引擎如何形成网站的爬行频次,所有博主对网络的内容进行整理得到搜索引擎利用以下两个因素来确定爬网频次。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 5812
    • 如何分配抓取频次?
  • 简单易用的SEO关键词工具大全

    关键词挖掘工具

    简单易用的SEO关键词挖掘工具有哪些?搜索引擎优化的重要性不言自明,但选择正确的搜索引擎优化工具是一件困难的事,那么哪种搜索引擎优化工具比较适合你

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1456
    • 关键词挖掘工具