HITS算法链接分析算法

HITS 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。

按照HITS算法,用户输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores),这两种值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值是指所有导入链接所在的页面中枢纽之和。

通常HITS算法是作用在一定范围的,比如一个以程序开发为主题网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。

在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。


Hub页面与Authority页面

所谓“Authority”页面,是指与某个领域或者某个话题相关的高质量网页,比如搜索引擎领域,Google和百度首页即该领域的高质量网页,比如视频领域,优酷和土豆首页即该领域的高质量网页。

所谓“Hub”页面,指的是包含了很多指向高质量“Authority”页面链接的网页,比如hao123首页可以认为是一个典型的高质量“Hub”网页。

 HITS算法的目的即是通过一定的技术手段,在海量网页中找到与用户查询主题相关的高质量“Authority”页面和“Hub”页面,尤其是“Authority”页面,因为这些页面代表了能够满足用户查询的高质量内容,搜索引擎以此作为搜索结果返回给用户。


算法基本思想:相互增强关系

基本假设1:一个好的“Authority”页面会被很多好的“Hub”页面指向;

基本假设2:一个好的“Hub”页面会指向很多好的“Authority”页面;


HITS算法

可利用上面提到的两个基本假设,以及相互增强关系等原则进行多轮迭代计算,每轮迭代计算更新每个页面的两个权值,直到权值稳定不再发生明显的变化为止。


1 根集合

 将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合总取前n个网页(如n=200),作为根集合(root set),记为root,则root满足:

1).root中的网页数量较少

2).root中的网页是与查询q相关的网页

3).root中的网页包含较多的权威(Authority)网页


链接分析算法


2 扩展集合base

 在根集root的基础上,HITS算法对网页集合进行扩充集合base,扩充原则是:凡是与根集内网页有直接链接指向关系的网页都被扩充到集合base,无论是有链接指向根集内页面也好,或者是根集页面有链接指向的页面也好,都被扩充进入扩展网页集合base。HITS算法在这个扩充网页集合内寻找好的“Hub”页面与好的“Authority”页面。


3 计算扩展集base中所有页面的Hub值(枢纽度)和Authority值(权威度)

将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合中取前n个网页(如n=200),作为根集合(root set),记为S,则S满足:

1.S中的网页数量较少

2.S中的网页是与查询q相关的网页

3.S中的网页包含较多的权威(Authority)网页

通过向S 中加入被S 引用的网页和引用S 的网页,将S 扩展成一个更大的集合T. 以T 中的Hub 网页为顶点集V1 ,以权威网页为顶点集V2 。

V1 中的网页到V2 中的网页的超链接为边集E ,形成一个二分有向图. 对V1 中的任一个顶点v ,用h ( v) 表示网页v 的Hub 值,且h ( v)收敛;对V2 中的顶点u ,用a ( u) 表示网页的Authority 值。

开始时h ( v) = a ( u) = 1 ,对u 执行I 操作,修改它的a ( u) ,对v执行O操作,修改它的h ( v) ,然后规范化a ( u),h ( v) ,如此不断的重复计算下面的I操作和O操作,直到a ( u),h(v)收敛 。

其中I操作:a ( u) = Σh ( v) ;O 操作: h ( v) = Σa ( u) 。每次迭代对a ( u) 、h ( v) 进行规范化处理: a ( u) = a ( u)/Σ[ a ( q) ]2 ; h ( v) = h ( v)/Σ[ h ( q) ]2 。


申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seosuanfa/383

相关文章

  • SEO站外优化的方法有哪些?

    seo站外优化

    SEO站外优化的方法有哪些?一个网站如果有比较好的内容,但是客户还是无法看到的话,那么就说明SEO优化没有达到理想的效果。我们做网站首先就是要让用户能够看到,这样才能带来更多的流量,最终实现建设网站的目的就是起到推广或者是营销的效果。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1306
    • seo站外优化
  • SEO从业者应聘需要注意的那些事

    SEO应聘

    很多时候,我们一开始的选择就注定了我们可以获得一个什么样的结局。尤其是对于SEO优化从业者,因为岗位的属性就更要注意。对于SEO从业者应该关注哪些当年呢?潘某人SEO就根据自身多年的经验和大家分享一些,大家可以参考下,希望可以帮助到大家避坑。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 689
    • SEO应聘
  • 新站突然排名突然消失的原因

    新站排名消失

    新站突然排名突然消失的原因?有一些建过站的站长可能会碰到这样的一种现象,就是自己刚刚建好的一个网站,经过自己努力好不容易有了点,甚至是很不错,但是突然某一天自己的网站竟然毫无征兆的排名全无,

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2431
    • 新站排名消失
  • TDK标签优化的技巧

    TDK标签,TDK优化

    什么是TDK,网站关键词、标签、描述还重要吗?TDK该怎么写呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1514
    • TDK标签
    • TDK优化
  • 令人崩溃的网页表单输入体验

    输入体验

    站长们必看的一篇文章,网站表单的输入体验真的非常的重要!今天遇到一个让我非常恼火的问题,相信大家一定也遇到过,当你再网页的表单中填写了很多内容,突然不小心关闭了页面或者点到了链接页面跳转导致编写的内容全部丢失,如何优化表单输入体验。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 537
    • 输入体验
  • 如何禁止百度建立页面快照

    屏蔽快照

    很多站点出于隐私的考虑不希望百度保留快照,网上也在讨论如何禁止百度保留快照的方法。其实百度早已对此有过说明,但藏在一篇不起眼的文章中不引人注目,导致依然非常多的人不清楚该如何操作。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1601
    • 屏蔽快照
  • SEO优化移动端时应该注意什么?

    移动端优化

    移动设备上网已经逐渐的成为了现在大家主要的上网途径。因此对于SEO人员来说就需要开始对移动端的优化重视起来,学会抢占先机可以更好的提升胜率。毕竟移动端在将来会成为更加重要的存在。那么我们在移动端优化的时候需要注意什么呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1395
    • 移动端优化
  • 为什么网站关键词排名在第二页上去不

    排名怎么计算的,排名提升的原理,第二页的关键词如何提升排名

    为什么网站关键词排名在第二页上去不,这种情况一般是网站内容质量度不够,那么后续的SEO优化方向就要去提升站点的内容质量。揭秘排名计算的方式

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2218
    • 排名怎么计算的
    • 排名提升的原理
    • 第二页的关键词如何提升排名
  • 优化新站一般多久出排名

    新站多久有排名

    做seo的应该都知道,网站优化是一个漫长的过程,seo见效的时间相对来说比较慢,当然我们也想seo的速度能够大大的提升,但是太快的话,被k站的几率也是大大的增加,那么一个正常的网站一般出排名应该是多久呢?下面我们来看看新站出排名的时间。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1390
    • 新站多久有排名
  • 域名的长短会影响排名吗

    域名对权重得影响

    域名的长短、以及域名后缀会影响权重吗?这个问题困扰着很多人,其实域名只要没有黑历史,真的不要介意那么多,我们需要看穿网站优化得本质需要得是什么!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2094
    • 域名对权重得影响
  • 适用各种编程语言网站的百度API链接推送方法

    api推送,百度SEO,curl提交

    主动提交也叫API提交,是通过api接口调用来实现连接的推送,非常的便捷高效。只需简单的几行代码就可以实现秒提交数万的链接,还是非常给力,但是就是需要一定编程能力。不过当你看到这篇文章时,就需要恭喜你得到一种傻瓜式的API提交方法,无需编程开发能力,也无需对网站做任何的修改。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2132
    • api推送
    • 百度SEO
    • curl提交
  • 别再被“网站权重”误导了!别努力错了方向!

    网站权重

    有人把它当成衡量网站质量的标准,有人用它来评估SEO效果,更有甚者,把“权重高低”作为招聘考核的硬性指标。今天与潘某人SEO一起探索“网站权重”的真实面纱——搜索引擎根本不存在所谓的‘权重’!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 282
    • 网站权重
  • 如何提高栏目权重

    栏目权重,集权

    如何提升栏目的权重是一个值得深思的问题,对于SEO优化而言合理的网站结构是是非常的重要的,一个合理的结构布局可以有效的提升网站优化效果。今天就从栏目权重这个角度探讨下如何提升网站的权重。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1139
    • 栏目权重
    • 集权
  • 网站权重优化方法

    网站权重优化

    网站权重优化方法有哪些,我们没该如何优化提升网站权重对于SEO优化人员来说是最关心的话题了。在讲网站权重优化之前我们首先我们需要搞明白一点什么是网站权重,其实很多人并没有真正的认识权重的含义,很多人过多看中权重。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2517
    • 网站权重优化
  • SEO关键词你选对了吗?分享选词妙招!

    SEO,关键词,选词

    ​关键词是SEO优化核心之一,也是用户、搜索引擎和站点之间的桥梁,用户通过在搜索引擎使用关键词搜索所需的内容,搜索引擎通过关键词实现内容的索引和排序的建立。潘某人SEO常用的选词方法分享给大家。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 630
    • SEO
    • 关键词
    • 选词
  • “千人一面”与“千人千面”的区别

    千人一面,千人千面

    大家有没有发现在查询关键排名的时候,旁人搜索出来的结果和你不一样呢?造成这种现象是因为千人千面的存在,千人千面简单的讲就是一千人提供一千种策略,也是对于每个用户的策略都是不同的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1393
    • 千人一面
    • 千人千面
  • 自学SEO难吗?最短多长时间学会?

    自学SEO,SEO优化

    对于SEO感兴趣的同学,最关注的就是SEO学起来难吗,学习周期长吗?从事SEO优化,一般是建议同事掌握多个技能,比如推广运用、SEM推广等,至少可以稳定你的工作,让你有足够的时间条件往精通SEO成长。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 877
    • 自学SEO
    • SEO优化
  • nginx网站域名重定向怎么做

    nginx重定向,网站域名重定向

    网站上线最基础的一步就是确立域名如何重定向,如果最优的设置重定向。一方面要确立网站主域,另一方面跳转配置不遗漏并且尽可能减少没必要的跳转。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1131
    • nginx重定向
    • 网站域名重定向