HITS算法链接分析算法

HITS 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。

按照HITS算法,用户输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores),这两种值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值是指所有导入链接所在的页面中枢纽之和。

通常HITS算法是作用在一定范围的,比如一个以程序开发为主题网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。

在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。


Hub页面与Authority页面

所谓“Authority”页面,是指与某个领域或者某个话题相关的高质量网页,比如搜索引擎领域,Google和百度首页即该领域的高质量网页,比如视频领域,优酷和土豆首页即该领域的高质量网页。

所谓“Hub”页面,指的是包含了很多指向高质量“Authority”页面链接的网页,比如hao123首页可以认为是一个典型的高质量“Hub”网页。

 HITS算法的目的即是通过一定的技术手段,在海量网页中找到与用户查询主题相关的高质量“Authority”页面和“Hub”页面,尤其是“Authority”页面,因为这些页面代表了能够满足用户查询的高质量内容,搜索引擎以此作为搜索结果返回给用户。


算法基本思想:相互增强关系

基本假设1:一个好的“Authority”页面会被很多好的“Hub”页面指向;

基本假设2:一个好的“Hub”页面会指向很多好的“Authority”页面;


HITS算法

可利用上面提到的两个基本假设,以及相互增强关系等原则进行多轮迭代计算,每轮迭代计算更新每个页面的两个权值,直到权值稳定不再发生明显的变化为止。


1 根集合

 将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合总取前n个网页(如n=200),作为根集合(root set),记为root,则root满足:

1).root中的网页数量较少

2).root中的网页是与查询q相关的网页

3).root中的网页包含较多的权威(Authority)网页


链接分析算法


2 扩展集合base

 在根集root的基础上,HITS算法对网页集合进行扩充集合base,扩充原则是:凡是与根集内网页有直接链接指向关系的网页都被扩充到集合base,无论是有链接指向根集内页面也好,或者是根集页面有链接指向的页面也好,都被扩充进入扩展网页集合base。HITS算法在这个扩充网页集合内寻找好的“Hub”页面与好的“Authority”页面。


3 计算扩展集base中所有页面的Hub值(枢纽度)和Authority值(权威度)

将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合中取前n个网页(如n=200),作为根集合(root set),记为S,则S满足:

1.S中的网页数量较少

2.S中的网页是与查询q相关的网页

3.S中的网页包含较多的权威(Authority)网页

通过向S 中加入被S 引用的网页和引用S 的网页,将S 扩展成一个更大的集合T. 以T 中的Hub 网页为顶点集V1 ,以权威网页为顶点集V2 。

V1 中的网页到V2 中的网页的超链接为边集E ,形成一个二分有向图. 对V1 中的任一个顶点v ,用h ( v) 表示网页v 的Hub 值,且h ( v)收敛;对V2 中的顶点u ,用a ( u) 表示网页的Authority 值。

开始时h ( v) = a ( u) = 1 ,对u 执行I 操作,修改它的a ( u) ,对v执行O操作,修改它的h ( v) ,然后规范化a ( u),h ( v) ,如此不断的重复计算下面的I操作和O操作,直到a ( u),h(v)收敛 。

其中I操作:a ( u) = Σh ( v) ;O 操作: h ( v) = Σa ( u) 。每次迭代对a ( u) 、h ( v) 进行规范化处理: a ( u) = a ( u)/Σ[ a ( q) ]2 ; h ( v) = h ( v)/Σ[ h ( q) ]2 。


申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seosuanfa/383

相关文章

  • 百度spider对新链接重要程度判断

    百度spider

    影响Baiduspider正常抓取的原因,下面就要说说Baiduspider的一些判断原则了。在建库环节前,Baiduspider会对页面进行初步内容分析和链接分析,通过内容分析决定该网页是否需要建索引库,通过链接分析发现更多网页,再对更多网页进行抓取——分析——是否建库&发现新链接的流程。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 469
    • 百度spider
  • 网站SEO死链的如何处理

    死链,SEO

    大量死链的存在容易造成搜索引擎对网站评级的降低,因为大量的死链接的存在,会对于用户访问时的体验造成严重的伤害。同时大量的死链存在,会浪费大量的抓取量,对于网站的正常收录都会造成严重的影响。今天就和潘某人SEO一起探讨一下哪些情况需要提交死链、如何发现以及正确删除死链的方法。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 139
    • 死链
    • SEO
  • 如何定制百度索引量查看规则

    百度索引规则

    可以通过“*”号自定义规则来查看某些特征集合的页面索引量数据。“*”号放在规则结尾可匹配到包含“/”在内的任意字符串,放在规则其他位置匹配不包含“/”的任意字符串,具体可参考下列示例:

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1970
    • 百度索引规则
  • seo标题写法及其重要性

    seo标题写法,重要性

    标题对于SEO优化起着一个什么样的作用呢,这是一个值得思考的问题。很多人认为一个好的标题对于排名有着很好的作用,但是个人不这么认为,标题的作用没有我们想象的那么重要!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1575
    • seo标题写法
    • 重要性
  • 网站栏目数量对于权重的影响

    网站栏目,权重,seo

    ​如果您近期正在打算搭建网站,那么看到这篇文章就赶上了。很多站点在网站搭建的时候就为后期的SEO优化埋下了诸多的坑。如网站的栏目结构可以说是重灾区。网站的栏目数量要适当不宜多,对于大多数网站栏目数量控制在3-5左右差不多。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 632
    • 网站栏目
    • 权重
    • seo
  • 伪原创文章会被收录吗

    伪原创,收录

    伪原创的方法有哪些?伪原创对于网站的收录有影响吗?为什么很多站点优化效果不好呢?大多数是因为站点内容的问题,内容不够优质是导致SEO优化失败的主要因素。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1320
    • 伪原创
    • 收录
  • 如何分配抓取频次?

    如何分配抓取频次?

    如何分配抓取频次?随着搜索引擎优化,我们不完全知道搜索引擎如何形成网站的爬行频次,所有博主对网络的内容进行整理得到搜索引擎利用以下两个因素来确定爬网频次。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 5579
    • 如何分配抓取频次?
  • AI人工智能对于SEO优化产生的影响

    AI,SEO优化

    如今,AI人工智能已经渗透到生活工作中的方方面面,应用场景日益丰富,于此同时问题也逐步显现,如隐私保护、社会影响、就业影响等问题,那么人工智能AI对于SEO优化会产生什么样的影响呢? 今天我们就来探索下AI对于SEO会带来什么样的影响,分别从搜索引擎的三方角色进行分析。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 781
    • AI
    • SEO优化
  • 域名后缀对seo的影响

    域名后缀SEO影响

    域名后缀以及域名的长短会对网站seo产生影响吗?早期来说域名的后缀对于SEO优化不会有任何的影响,但是随着这个行业的发展慢慢的出现了群站,如今是否存在影响也是成为了一个不确定的因素。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2396
    • 域名后缀SEO影响
  • description标签重要吗,还要写吗

    description标签重要吗

    Description标签就是就是常说的页面描述标签,是页面核心TDK标签的其中之一,那么如今description标签还重要吗,还有必要去写描述标签吗?个人觉得描述标签不是很重要,但又是很重要的,看似矛盾其实只是所站的角度不一样。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3257
    • description标签重要吗
  • 如何快速提升关键词排名?

    提升关键词排名

    如何快速提升关键词排名?可以从流量冲击、时效性热点内容 、高质量外链、网站整体权重、交换一些友情链接,多角度同时进行有效快速提升关键词排名。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1344
    • 提升关键词排名
  • 内容防抓取原创保护的方法

    原创保护,防抓取,防采集

    ​站点的内容经常被恶意采集爬取,辛辛苦苦码的原创内容被人轻而易举的强取豪夺,被采集可以说是另站长们最痛疼的事情之一了,今天潘某人SEO就与大家分享若干方法,期望可以对大家有帮助。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 823
    • 原创保护
    • 防抓取
    • 防采集
  • SEO核心内容为王,外链为皇

    内容为王,外链为皇,外链的重要性

    内容和外链到底谁更重要,真的是传说在的外链为皇,内容为王吗?真相往往是残酷的。偏离的外链的本质,人云亦云,执着于错误中乐此不疲,也是一个神奇的现象,网站优化更需要的是了解每一个动作的本质。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1716
    • 内容为王
    • 外链为皇
    • 外链的重要性
  • 网站site和索引量差距过大

    site与索引量

    对于seo的日常会比较关注site出来的结果数量和站长后台的索引量,但是很多情况下我们会遇到site数量和索引量的差距比较大,出现这种情况大家的小心脏不免心慌慌,那么为什么站长平台的索引量和site展现不一致呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2396
    • site与索引量
  • 如何防止网站内容被采集保护原创

    防爬取,原创保护,防采集

    分享一个值得一看的保护内容被恶意抓取采集的方案,如何更高效率的从源头解决网站内容被采集,保护站点原创收录排名。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1941
    • 防爬取
    • 原创保护
    • 防采集
  • SEO付费方式比较靠谱

    seo付费模式

    按天?按月?还是按年?来看看哪款SEO付费方式更适合你!不论是按天收费还是按年、按月收费,其实都是我们SEO优化服务的一种计费模式。正所谓存在即合理,两者间其实都是互有优劣的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1791
    • seo付费模式
  • 网站seo如何正确设置基础信息

    seo,基础信息

    什么是搜索展现基础信息、标题设置规范、摘要设置规范、站点名设置规范、配图设置规范、时间因子设置规范以及网站内容设置注意事项,详细讲解如何正确设置基础信息。用户在百度搜索引擎中根据自身的搜索需求输入关键词,从得到的搜索结果中,筛选出符合需求的内容,产生点击行为。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 990
    • seo
    • 基础信息
  • 学习seo网站优化难吗

    seo网站优化难吗

    对于SEO优化这个岗位可以说任何一个学科都不涉及,因此SEO优化基本都是零基础入门的,那么SEO优化学习难吗?如何才能够学好SEO优化呢?也许你是参加了培训机构,也许你是自学SEO优化。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1186
    • seo网站优化难吗