搜索引擎检索原理解析

上期讲到了搜索引擎是如何抓取内容的,今天就来讲下搜索引擎的下半部分,搜索引擎的内容抓取的目的就是为了实现用户的搜索。对于网站来说,站点内容搜索是通过关键词来匹配,找出关联性最大的结果进行展示,搜索引擎的亦是如此。

但是搜索引擎面对整个网络,几乎抓取了互联网上的大部分内容,如果只是简单的粗暴的存储抓取到的内容,那么存储成本会很大,大量的重复内容效率会很低;对于用户搜索的时候因为内容过于庞大,搜索效率很低并且结果不精准,这就要依托于搜索引擎的算法加持。

对于搜索引擎面对最大的问题就是匹配的精准性,对于搜索引擎存在意义就是解决用户的搜索需求,但是机器毕竟是机器,及时现在的人工智能其实也是智障,所以就需要通过算法更加精准的把关键词和文档关联起来。

对于计算机来说,目前来说不可能读懂文档的内容,只能把文档分成若干的片段,经过算法分析得出文档的和各个关键词的关联性。检索系统主要包含了五个部分,如下图所示:

搜索引擎搜索匹配流程

(1)Query串切词分词即将用户的查询词进行分词,对之后的查询做准备,以“10号线地铁故障”为例,可能的分词如下(同义词问题暂时略过):

  • 10 0x123abc

  • 号 0x13445d

  • 线 0x234d

  • 地铁 0x145cf

  • 故障 0x354df

(2)查出含每个term的文档集合,即找出待选集合,如下:

  • 0x123abc 1 2 3 4 7 9…..

  • 0x13445d 2 5 8 9 10 11……

  • ……

  • ……

(3)求交,上述求交,文档2和文档9可能是我们需要找的,包含0x123abc0x123abc的文档有1 2 3 4 7 9,包含0x13445d的文档有2 5 8 9 10 11;只有文档2和9包含了最多的分词,搜索引擎关键词搜索的匹配就是将搜索关键词分词后,然后对各个文档出现的分词的数量和频次进行求交。

整个求交过程实际上关系着整个系统的性能,这里面包含了使用缓存等等手段进行性能优化;

(4)各种过滤,举例可能包含过滤掉死链、重复数据、色情、垃圾结果以及你懂的;

(5)最终排序,将最能满足用户需求的结果排序在最前,可能包括的有用信息如:网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等等。

到了这里大家可能觉得那么直接堆砌关键词,关键词密度高了,那么关键词求交的几率不就高了,排名不就有了吗?但是求交是对于数据最基础的筛选,只能说内容的关联性到了,有机会参与排名;但是最终的排名第五小点是非常关键词的,现在搜索引擎对于用户体验非常的注重,所以还有算法评估着网站的用户行为数据反馈着网页的质量,更好的确认网页的质量来决定最终的排名。



申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seozhishi/781

相关文章

  • 百度spider对新链接重要程度判断

    百度spider

    影响Baiduspider正常抓取的原因,下面就要说说Baiduspider的一些判断原则了。在建库环节前,Baiduspider会对页面进行初步内容分析和链接分析,通过内容分析决定该网页是否需要建索引库,通过链接分析发现更多网页,再对更多网页进行抓取——分析——是否建库&发现新链接的流程。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 627
    • 百度spider
  • 图片懒加载对于SEO优化有影响吗?

    懒加载,延迟加载,seo优化

    网站图片使用懒加载也就是延迟加载技术,对于SEO优化会有不良的负面影响吗?对于图片的延迟加载我们应该如何去看待处理,才能做到兼顾网站的加载速度以及SEO优化的效果呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2190
    • 懒加载
    • 延迟加载
    • seo优化
  • 如何防止网站内容被采集保护原创

    防爬取,原创保护,防采集

    分享一个值得一看的保护内容被恶意抓取采集的方案,如何更高效率的从源头解决网站内容被采集,保护站点原创收录排名。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2213
    • 防爬取
    • 原创保护
    • 防采集
  • 什么是闭站保护,无法申请闭站保护怎么办?

    闭站保护,seo

    闭站保护是什么,闭站保护对于站点有什么作用;但是如果站点无法申请闭站保护又要如何应对呢?今天潘某人SEO就以一次闭站的经历分享来告诉大家如何正常的处理闭站保护。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 989
    • 闭站保护
    • seo
  • 如何合理设置展开全文功能

    SEO展开全文功能

    在SEO优化中,如何合理设置展开全文功能呢?根据百度移动白皮书5.0总结一下几点:要有明确的文字指示说明、展开全文按钮与其他内容模块需设置间隔、展开全文不能出现在首屏、全文中展开全文功能只有出现一次

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2635
    • SEO展开全文功能
  • 关键词密度,在SEO中的作用!

    关键词密度

    关键词密度对于关键词的排名有着重要影响,那么关键词密度多少合适呢?相信大家经常听到网上的说法,控制关键词密度2-8%之间。这种说法其实是不对的,对于不同行业适合的关键密度肯定是不一样的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1386
    • 关键词密度
  • 【春节版】2024年SEO优化还值得继续做下去吗?

    SEO优化

    2023年充满了挑战,相信很多站点都遇到了巨大的挑战吧,遭受降权的站点应该不是少数,还有更多的站点努力了1年没有任何起色的。这种情况的站点,不用担心,大家亦是如此,那么在2024年大家是否还有坚持把SEO做下去的勇气和毅力吗?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 957
    • SEO优化
  • 别让网站打开速度毁了SEO优化

    网站速度

    在当今的数字时代,网站的打开速度不仅关乎用户体验,更是影响搜索引擎优化(SEO)效果的关键因素。潘某人SEO带你探讨网页加载速度对SEO的影响,并提如何提高你网站的速度。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 492
    • 网站速度
  • 如何用domian命令查询网站反链数量

    domain命令如何使用,外链反链数如何查询

    很多人会使用domain指令去查询网站的外链数量,更有机构公司把domain值当作外链数量的考核标准,真的是十分荒谬,domian真正的作用是!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 5035
    • domain命令如何使用
    • 外链反链数如何查询
  • SEO标题长度多少合适呢?

    SEO优化,标题长度

    ​标题在SEO优化之中是至关重要的,如果不会正确合理的写标题是很难做好SEO的,标题不仅仅是搜索引擎排名的重要的因素,同时也是重要的流量入口,一个好的标题是吸引用户点击的关键。因此,标题会一定程度上影响这排名站点和点击率。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1260
    • SEO优化
    • 标题长度
  • 共享ip服务器对seo优化的影响

    seo优化的影响,共享ip

    目前的服务器大致可以分为两种,一种是虚拟主机,还有一种是实例主机。这两者在seo层面最值得关注就是ip的共享问题。那么共享ip是否会对seo优化造成影响,那么这篇文章值得一看。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1247
    • seo优化的影响
    • 共享ip
  • 百度搜索引擎蜘蛛喜欢什么样的网站结构

    seo网站结构

    百度搜索引擎蜘蛛喜欢什么样的网站结构?希望能在百度获得好的排名、更多优质低价的流量,这个前提就是网站得有好的结构,百度蜘蛛才能顺利、快速的抓取,也就是说网站结构是关键词排名、链接优化、内容优化的前提。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1807
    • seo网站结构
  • IP地址段表达方式

    IP地址,IP区间段,ip表达式

    ip/8/16/24,IP大家在熟悉不过了,但是大家真的了解IP吗?如何表示一段区间的IP端呢?在网站优化的时候IP的屏蔽是经常需要做的一件事,如果需要屏蔽的IP都在一个段区间内,你还在一个个屏蔽吗,有没有一种快速屏蔽一段IP的方法吗。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3304
    • IP地址
    • IP区间段
    • ip表达式
  • SEO优化必须掌握的robots文件协议

    robots,SEO优化

    robots文件使用来申明网站哪些内容允许搜索引擎抓取,哪些内容禁止搜索引抓取的;正确的设置robots可以提升搜索引擎对网站的抓取效率,同时避免不必要的内容被抓取展现。但在实际运用中很多站点没有正确的使用robots导致了一些问题,今天潘某人SEO就为大家揭秘下robots的注意点。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1116
    • robots
    • SEO优化
  • 网站排名优化贵在长期稳定坚持

    网站排名优化思路

    如果一个网站想要稳定的流量,那么不是靠一朝一夕可以迅速做到的,因此网站排名优化的重点在于长期稳定坚持的输出高质量的内容的,一个量变到质变的过程。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1614
    • 网站排名优化思路
  • 新站快速提升网站收录的实战技巧

    网站收录,新站优化

    在搜索引擎优化(SEO)的世界里,“收录”是所有工作的基础。没有收录,就没有排名;没有排名,就没有流量。对于新站来说,如何快速提高网站收录,成为了很多站长最关心的问题。今天潘某人SEO就来聊聊,如何通过科学的方法和细节优化,让搜索引擎更快、更全面地收录你的网站内容,并为后续的排名和转化打下坚实的基础。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 497
    • 网站收录
    • 新站优化
  • 代码适配对百度友好代码详解

    代码适配

    移动端适配的方式有多种形式,比如通过规则适配、响应式、独立移动PC站等方式都可以实现PC移动端适配的效果,今天详细讲一下本人比较喜欢的适配方式即代码适配,这种适配方式可以说是尽可能的结合了上面集中适配方式的优点,对于SEO优化来说还是比较友好的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2768
    • 代码适配
  • 有效索引与关键词排名的关系

    收录排名,有效索引

    大多是人都知道索引这个词,但是不知道什么是有效索引,页面的排名取决于能不能进入有效索引库以及处在什么位置。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2347
    • 收录排名
    • 有效索引