搜索引擎检索原理解析

上期讲到了搜索引擎是如何抓取内容的,今天就来讲下搜索引擎的下半部分,搜索引擎的内容抓取的目的就是为了实现用户的搜索。对于网站来说,站点内容搜索是通过关键词来匹配,找出关联性最大的结果进行展示,搜索引擎的亦是如此。

但是搜索引擎面对整个网络,几乎抓取了互联网上的大部分内容,如果只是简单的粗暴的存储抓取到的内容,那么存储成本会很大,大量的重复内容效率会很低;对于用户搜索的时候因为内容过于庞大,搜索效率很低并且结果不精准,这就要依托于搜索引擎的算法加持。

对于搜索引擎面对最大的问题就是匹配的精准性,对于搜索引擎存在意义就是解决用户的搜索需求,但是机器毕竟是机器,及时现在的人工智能其实也是智障,所以就需要通过算法更加精准的把关键词和文档关联起来。

对于计算机来说,目前来说不可能读懂文档的内容,只能把文档分成若干的片段,经过算法分析得出文档的和各个关键词的关联性。检索系统主要包含了五个部分,如下图所示:

搜索引擎搜索匹配流程

(1)Query串切词分词即将用户的查询词进行分词,对之后的查询做准备,以“10号线地铁故障”为例,可能的分词如下(同义词问题暂时略过):

  • 10 0x123abc

  • 号 0x13445d

  • 线 0x234d

  • 地铁 0x145cf

  • 故障 0x354df

(2)查出含每个term的文档集合,即找出待选集合,如下:

  • 0x123abc 1 2 3 4 7 9…..

  • 0x13445d 2 5 8 9 10 11……

  • ……

  • ……

(3)求交,上述求交,文档2和文档9可能是我们需要找的,包含0x123abc0x123abc的文档有1 2 3 4 7 9,包含0x13445d的文档有2 5 8 9 10 11;只有文档2和9包含了最多的分词,搜索引擎关键词搜索的匹配就是将搜索关键词分词后,然后对各个文档出现的分词的数量和频次进行求交。

整个求交过程实际上关系着整个系统的性能,这里面包含了使用缓存等等手段进行性能优化;

(4)各种过滤,举例可能包含过滤掉死链、重复数据、色情、垃圾结果以及你懂的;

(5)最终排序,将最能满足用户需求的结果排序在最前,可能包括的有用信息如:网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等等。

到了这里大家可能觉得那么直接堆砌关键词,关键词密度高了,那么关键词求交的几率不就高了,排名不就有了吗?但是求交是对于数据最基础的筛选,只能说内容的关联性到了,有机会参与排名;但是最终的排名第五小点是非常关键词的,现在搜索引擎对于用户体验非常的注重,所以还有算法评估着网站的用户行为数据反馈着网页的质量,更好的确认网页的质量来决定最终的排名。



申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seozhishi/781

相关文章

  • 网站标题关键词结构布局

    网站标题布局

    网站标题关键词结构布局,对于网站结构比较复杂的网站,那么为了使得网站结构有一定的条理性,那么这么网站的标题就需要一定的布局。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1435
    • 网站标题布局
  • 怎么增加站长工具关键词库

    站长关键词库

    了解了什么是关键词库,接下来就要了解到关键词的意义了。关键词库和网站的权重是息息相关的,大家可以看一下网站权重的计算方法就明白了。简单的讲权重是根据预估流量来划分的,而预估流量就是来源于关键词库中的关键词的排名所决定的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1162
    • 站长关键词库
  • 如何防止网站被黑

    防止网站被黑.防火墙配置,出入站规则

    合理的配置服务器防火墙的出入站规则,可以有效的屏蔽恶意访问,从而提升网站的安全性防止网站被黑,望着那别攻击很有可能优化规则前功尽弃。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1005
    • 防止网站被黑.防火墙配置
    • 出入站规则
  • 新站突然排名突然消失的原因

    新站排名消失

    新站突然排名突然消失的原因?有一些建过站的站长可能会碰到这样的一种现象,就是自己刚刚建好的一个网站,经过自己努力好不容易有了点,甚至是很不错,但是突然某一天自己的网站竟然毫无征兆的排名全无,

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2431
    • 新站排名消失
  • 网站SEO优化到底监控什么?别只会看“权重”!

    SEO优化,权重

    在如今这个流量为王的时代,搜索引擎优化(SEO)已经成为企业推广不可或缺的一环。但很多SEO从业者和站长仍然陷入误区——过度关注“网站权重”,却忽略了真正影响转化的核心数据。其实,SEO优化不是靠感觉、也不是靠玄学,而是要靠精准的数据分析与持续的策略调整。今天,潘某人SEO就来探讨下网站SEO优化到底应该监控哪些关键指标?又该如何正确解读这些数据?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 338
    • SEO优化
    • 权重
  • 网站怎么赚钱

    网站怎么赚钱

    对于企业站点,主要目的就是通过业务模式来转化,那么对于个人站点不存在所谓的业务需求那么又要如何去赚钱呢?对于个人站点的赚钱主要可以通过流量、广告、站点出售等获取。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 807
    • 网站怎么赚钱
  • 网站中毒被降权了怎么操作

    网站被黑中毒怎么优化

    网站中毒被降权了怎么操作,这种情况立即关闭网站,申请闭站保护,然后对网站进行全面的检查加固,沉淀1-6个月之后再重新上线。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1328
    • 网站被黑中毒怎么优化
  • 如何通过软文营销来提高关键词排名

    软文SEO优化

    如何通过软文营销来提高关键词排名呢?其中关键的地方就在于关键词的选择和关键词的布局。因为在一篇高质量的软文当中,关键词既不能太多又不能太少。另外对于关键词的选择和使用也是有许多讲究的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1913
    • 软文SEO优化
  • SEO站内外优化的差异

    站内外优化差异

    SEO优化可以分为站内优化和站外优化,那么在两者之间我们应该重点优化哪一个呢?以及站内的优化的方式各有哪些方面呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1848
    • 站内外优化差异
  • SEO网站站外优化怎么做

    SEO站外优化

    SEO站外优化,如果你只是认为发发外链,那么恭喜你错了!站外SEO优化可以分为两个维度:通过站外内容链接的发布,通过外链给网站引流或者带来权重上的导入;另一个维度则是品牌的曝光建设,看似和SEO没有直接的关系,反而比前者更加重要。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 744
    • SEO站外优化
  • 巧用robots避免蜘蛛黑洞

    robots,蜘蛛黑洞

    今天我们来了解下什么是蜘蛛黑洞,黑洞大家应该有一定的了解,属于一种高质量高引力天体,包括光任何的物体都无法逃逸。蜘蛛黑洞既是蜘蛛进入之后无法再出来,对正常的抓取工作产生负面影响。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1501
    • robots
    • 蜘蛛黑洞
  • 如何防止网站内容被复制

    防止复制,js

    通过js修改document上的相关属性值来实,防止网站内容被复制。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1277
    • 防止复制
    • js
  • h5哪些标签可以seo优化

    h5标签,seo优化

    HTML5中可以用哪些代码标签来做SEO搜索引擎优化?H5中的标签可以使得网页内容更加结构化,可以更加清楚的展示页面内容的结构,可以提升对于搜索引擎的友好性,可以更加容易的识别网站内容以及站点的类型。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2325
    • h5标签
    • seo优化
  • 什么样的外链才是高质量外链?

    高质量外链标准

    外链建设是SEO优化中重要的一项,可以有效快速的提升网站的抓取数量,其实是对于新站更加有意义,可以快速的提升网站的权重,但是随着搜索引擎算法不断的迭代,也推出了打击外链买卖作弊的行为,比如百度搜索引擎就有绿萝算法。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1029
    • 高质量外链标准
  • DNS对于SEO至关重要

    DNS服务器,seo

    如果你错误的选择dns服务器,那么对于站点的SEO优化是致命的,轻则影响SEO效果,严重的甚至站点会被搜索引擎所屏蔽。因此重视dns服务器,正确的选择对于seo优化是必要的也是重要的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 917
    • DNS服务器
    • seo
  • 带Nofollow标签的外链还有价值吗?

    nofollow,外链

    在 SEO(搜索引擎优化)的世界里,“外链”一直被视为网站权重和排名的重要因素之一。然而,当这些外链被加上rel="nofollow"标签时,这样的链接还有价值吗? 带Nofollow标签的外链毫无价值吗?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 299
    • nofollow
    • 外链
  • 死链的正确处理方式,自动化提交,超详细全面教程!

    死链提交,搜索引擎,蜘蛛

    死链提交是SEO优化中常见的一环,但是你处理死链的方式真的正确吗?分享一份详尽的死链处理方案教程。及如何实现全自动死链提交。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 950
    • 死链提交
    • 搜索引擎
    • 蜘蛛
  • 网站标题千万不要乱写,否则你要面临什么?

    网站标题,备案

    网站标题对于一个网站运营及seo都是非常的重要的,一般会在网站标题中凸显公司名称或者是品牌词,但是如果前期没好足够规范,那可能后果会超出你的承受范围,就单seo层面,优化了很久的品牌词面临要去除的情况,是不是非常令人难以接受。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 606
    • 网站标题
    • 备案