HITS算法链接分析算法

HITS 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。

按照HITS算法,用户输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores),这两种值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值是指所有导入链接所在的页面中枢纽之和。

通常HITS算法是作用在一定范围的,比如一个以程序开发为主题网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。

在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。


Hub页面与Authority页面

所谓“Authority”页面,是指与某个领域或者某个话题相关的高质量网页,比如搜索引擎领域,Google和百度首页即该领域的高质量网页,比如视频领域,优酷和土豆首页即该领域的高质量网页。

所谓“Hub”页面,指的是包含了很多指向高质量“Authority”页面链接的网页,比如hao123首页可以认为是一个典型的高质量“Hub”网页。

 HITS算法的目的即是通过一定的技术手段,在海量网页中找到与用户查询主题相关的高质量“Authority”页面和“Hub”页面,尤其是“Authority”页面,因为这些页面代表了能够满足用户查询的高质量内容,搜索引擎以此作为搜索结果返回给用户。


算法基本思想:相互增强关系

基本假设1:一个好的“Authority”页面会被很多好的“Hub”页面指向;

基本假设2:一个好的“Hub”页面会指向很多好的“Authority”页面;


HITS算法

可利用上面提到的两个基本假设,以及相互增强关系等原则进行多轮迭代计算,每轮迭代计算更新每个页面的两个权值,直到权值稳定不再发生明显的变化为止。


1 根集合

 将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合总取前n个网页(如n=200),作为根集合(root set),记为root,则root满足:

1).root中的网页数量较少

2).root中的网页是与查询q相关的网页

3).root中的网页包含较多的权威(Authority)网页


链接分析算法


2 扩展集合base

 在根集root的基础上,HITS算法对网页集合进行扩充集合base,扩充原则是:凡是与根集内网页有直接链接指向关系的网页都被扩充到集合base,无论是有链接指向根集内页面也好,或者是根集页面有链接指向的页面也好,都被扩充进入扩展网页集合base。HITS算法在这个扩充网页集合内寻找好的“Hub”页面与好的“Authority”页面。


3 计算扩展集base中所有页面的Hub值(枢纽度)和Authority值(权威度)

将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合中取前n个网页(如n=200),作为根集合(root set),记为S,则S满足:

1.S中的网页数量较少

2.S中的网页是与查询q相关的网页

3.S中的网页包含较多的权威(Authority)网页

通过向S 中加入被S 引用的网页和引用S 的网页,将S 扩展成一个更大的集合T. 以T 中的Hub 网页为顶点集V1 ,以权威网页为顶点集V2 。

V1 中的网页到V2 中的网页的超链接为边集E ,形成一个二分有向图. 对V1 中的任一个顶点v ,用h ( v) 表示网页v 的Hub 值,且h ( v)收敛;对V2 中的顶点u ,用a ( u) 表示网页的Authority 值。

开始时h ( v) = a ( u) = 1 ,对u 执行I 操作,修改它的a ( u) ,对v执行O操作,修改它的h ( v) ,然后规范化a ( u),h ( v) ,如此不断的重复计算下面的I操作和O操作,直到a ( u),h(v)收敛 。

其中I操作:a ( u) = Σh ( v) ;O 操作: h ( v) = Σa ( u) 。每次迭代对a ( u) 、h ( v) 进行规范化处理: a ( u) = a ( u)/Σ[ a ( q) ]2 ; h ( v) = h ( v)/Σ[ h ( q) ]2 。


申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seosuanfa/383

相关文章

  • UGC是什么意思,对于SEO优化的作用

    UGC,SEO优化

    UGC是什么意思,对于SEO优化的作用,UGC 互联网术语,全称为User Generated Content,也就是用户生成内容,即用户原创内容。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1633
    • UGC
    • SEO优化
  • 百度移动适配状态说明

    移动适配状态

    百度移动适配状态说明,对于适配的状态成功失败原因的分析以及解决方案。当认为实际情况与您提交的情况相符时,才会对适配数据进行生效处理,这个校验时间大约为10天。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3976
    • 移动适配状态
  • 怎么增加站长工具关键词库

    站长关键词库

    了解了什么是关键词库,接下来就要了解到关键词的意义了。关键词库和网站的权重是息息相关的,大家可以看一下网站权重的计算方法就明白了。简单的讲权重是根据预估流量来划分的,而预估流量就是来源于关键词库中的关键词的排名所决定的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1387
    • 站长关键词库
  • h1标签对seo优化重要吗

    H标签SEO优化

    H标签可以通过重要程度分为H1>H2>H3>H4>H5>H6.........,那么很多都会想到既然H1标签可以突出页面的重点,那么岂不是对于想要优化的关键词我们可以使用H1标签来突出它?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1822
    • H标签SEO优化
  • 答应我以后别这么设计网址路径,迟早会后悔!

    网址路径

    今天有人跟我痛诉网站几千的内容,全部被爬走了,一个不剩的那种,如何才能避免这种悲剧的发生呢?很多人的站点都会有这个问题,并且我见过的很多企业站点都有这个通病。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 585
    • 网址路径
  • 域名总数达到 3187 万,搜索引擎与 SEO 价值凸显

    域名,搜索引擎

    中国家顶级域名“.CN”数量为1956万个,占域名总数的61.4%,连续十年位居全球第一。预示着seo其价值不仅没有衰减,反而随着用户对高质量内容需求的增长而愈发重要。在信息爆炸的时代,SEO已经从单纯的关键词排名工具,进化为连接用户需求与优质内容的核心桥梁。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 5119
    • 域名
    • 搜索引擎
  • 图片字体版权你注意了吗?

    图片版权,字体版权

    如果作为一个网站运营者,对于图片字体版权没有一个正确的认知,那么在你盈利之前可能就要做一个赔钱货了!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1270
    • 图片版权
    • 字体版权
  • 网站目录提交网址,对SEO还有作用吗?

    网站目录,外链,SEO优化

    网站目录是站点外链优化途径之一,那么如今提交网站目录对于SEO优化效果大吗?网站目录作为外链的一种形式,它的效果遵从外链相关的规则和算法。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1372
    • 网站目录
    • 外链
    • SEO优化
  • 搜索流量 vs 推荐流量:很多人搞错了关键所在!

    搜索流量,推荐流量

    在内容生态中,搜索流量和推荐流量是两个维度,它们背后的逻辑、用户意图、内容形态,甚至SEO策略,都完全不同。搜索流量:用户主动搜索关键词、明确需求,如“如何做SEO”;内容类型,深度、结构化、信息密度高;长期有效,可积累。推荐流量:平台算法主动推送,被动浏览,娱乐消遣为主,短平快、情绪化、视觉冲击强,短期爆发,易过期。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 717
    • 搜索流量
    • 推荐流量
  • seo地域标签添加方法

    seo地域展现

    通过seo地域标签添加方法,精准的展现在我们需要的地域,城市进行展现,可以解决很多公司业务是具有地域性的特点,业务的目标客户集中在某些地域的问题,实现更加精准的推广营销。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1912
    • seo地域展现
  • SEO优化岗位如何考核

    SEO如何考核

    SEO优化岗位如何考核?SEO优化对于网站推广的重要度越来越高,一方面是因为SEM推广的竞争度越来越高,并且关键词的价格也在不断的增长。越来越多的公司都开始设立了SEO优化推广这个岗位。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2419
    • SEO如何考核
  • 如何防止假蜘蛛抓取内容

    假蜘蛛,防采集,原创保护

    如何让网站自动识别蜘蛛的真假,如何自动的屏蔽假蜘蛛抓取网站内容,从而更好的保护网站的原创内容呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2595
    • 假蜘蛛
    • 防采集
    • 原创保护
  • 交换链接的作弊手段

    友链作弊方法

    交换链接的作弊手段有哪些,如果你不知道这些作弊方式,那么你可能一直在蒙在鼓里被人占便宜。上链后删除、使用JS代码调用的友情链接、链接使用Nofollow标签、使用假的页面等都是常见的友链的作弊方法。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2000
    • 友链作弊方法
  • 黑帽和白帽SEO区别

    黑帽和白帽seo

    黑帽和白帽SEO区别,白帽SEO通常需要时间的积累,注重长远的利益,关键词排名做上去之后不容易掉排名。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1461
    • 黑帽和白帽seo
  • SEO如何布局您的PC站和移动站

    PC站和移动站如何做适配

    SEO如何布局您的PC站和移动站,目前较流量的PC站与移动站配置方式有三种,百度站在搜索引擎角度将这三种分别称为跳转适配、代码适配和自适应,以下为这三种配置方式的名词解释及异同对比。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2911
    • PC站和移动站如何做适配
  • 网站改版如何降低对于seo优化的影响

    网站改版,seo优化的影响

    网站改版如何降低对于seo优化的在站点的实际运营中,网站的改版基本上是不可避免的,网站改版对于seo优化的影响相当于是一个未知数,很多的时候都超出了我们的预期。网站改版分为两种,一种是结构上的改版,一种是板式上的改版。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 997
    • 网站改版
    • seo优化的影响
  • 搜索引擎内容原创性之分词技术与文本粒度

    分词技术,文本的粒度,内容原创性

    seo优化中内容的原创性是非常重要的,那么对于搜索引擎是如何判断内容的原创性呢?从分词技术和文本粒度来研究下伪原创内容对于SEO优化存在意义。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1362
    • 分词技术
    • 文本的粒度
    • 内容原创性
  • HTTP和HTTPS对于SEO优化有影响吗

    HTTP和HTTPS,SEO优化

    HTTP和HTTPS对于SEO优化有影响吗?这应该是很多人会有疑虑的,由于很多老站点都是http协议的,会纠结https对于seo优化会更加友好吗?在网站是否升级https的问题上犹豫不觉着。结论是有条件升级https的还是尽可能升级。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1083
    • HTTP和HTTPS
    • SEO优化