首页 >  SEO >  SEO算法 >  正文

HITS算法链接分析算法

 作者:潘某人SEO
1594

HITS 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。

按照HITS算法,用户输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores),这两种值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值是指所有导入链接所在的页面中枢纽之和。

通常HITS算法是作用在一定范围的,比如一个以程序开发为主题网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。

在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。


Hub页面与Authority页面

所谓“Authority”页面,是指与某个领域或者某个话题相关的高质量网页,比如搜索引擎领域,Google和百度首页即该领域的高质量网页,比如视频领域,优酷和土豆首页即该领域的高质量网页。

所谓“Hub”页面,指的是包含了很多指向高质量“Authority”页面链接的网页,比如hao123首页可以认为是一个典型的高质量“Hub”网页。

 HITS算法的目的即是通过一定的技术手段,在海量网页中找到与用户查询主题相关的高质量“Authority”页面和“Hub”页面,尤其是“Authority”页面,因为这些页面代表了能够满足用户查询的高质量内容,搜索引擎以此作为搜索结果返回给用户。


算法基本思想:相互增强关系

基本假设1:一个好的“Authority”页面会被很多好的“Hub”页面指向;

基本假设2:一个好的“Hub”页面会指向很多好的“Authority”页面;


HITS算法

可利用上面提到的两个基本假设,以及相互增强关系等原则进行多轮迭代计算,每轮迭代计算更新每个页面的两个权值,直到权值稳定不再发生明显的变化为止。


1 根集合

 将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合总取前n个网页(如n=200),作为根集合(root set),记为root,则root满足:

1).root中的网页数量较少

2).root中的网页是与查询q相关的网页

3).root中的网页包含较多的权威(Authority)网页


链接分析算法


2 扩展集合base

 在根集root的基础上,HITS算法对网页集合进行扩充集合base,扩充原则是:凡是与根集内网页有直接链接指向关系的网页都被扩充到集合base,无论是有链接指向根集内页面也好,或者是根集页面有链接指向的页面也好,都被扩充进入扩展网页集合base。HITS算法在这个扩充网页集合内寻找好的“Hub”页面与好的“Authority”页面。


3 计算扩展集base中所有页面的Hub值(枢纽度)和Authority值(权威度)

将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合中取前n个网页(如n=200),作为根集合(root set),记为S,则S满足:

1.S中的网页数量较少

2.S中的网页是与查询q相关的网页

3.S中的网页包含较多的权威(Authority)网页

通过向S 中加入被S 引用的网页和引用S 的网页,将S 扩展成一个更大的集合T. 以T 中的Hub 网页为顶点集V1 ,以权威网页为顶点集V2 。

V1 中的网页到V2 中的网页的超链接为边集E ,形成一个二分有向图. 对V1 中的任一个顶点v ,用h ( v) 表示网页v 的Hub 值,且h ( v)收敛;对V2 中的顶点u ,用a ( u) 表示网页的Authority 值。

开始时h ( v) = a ( u) = 1 ,对u 执行I 操作,修改它的a ( u) ,对v执行O操作,修改它的h ( v) ,然后规范化a ( u),h ( v) ,如此不断的重复计算下面的I操作和O操作,直到a ( u),h(v)收敛 。

其中I操作:a ( u) = Σh ( v) ;O 操作: h ( v) = Σa ( u) 。每次迭代对a ( u) 、h ( v) 进行规范化处理: a ( u) = a ( u)/Σ[ a ( q) ]2 ; h ( v) = h ( v)/Σ[ h ( q) ]2 。


公众号
潘某人SEO 关注我每天学习SEO优化相关知识... 470篇原创内容
潘某SEO 公众号
申明:以上内容仅代表个人观点,仅供学习参考 本站图片来源于CC0协议或已获得VRF授权的图库站点 本文参考于互联网如有侵权,请联系 pmrseo@foxmail.com删除 本文地址:https://www.chateach.com/seo/seosuanfa/383
相关文章
  • 网站采集对seo优化有哪些影响

    采集对于SEO的影响

    网站采集对seo优化有哪些影响,百度有飓风算法就是针对于网站内容采集的。那么我们作为站长应该是如何采集文章效果号,有效提高我们网站的内容建设。

    1800
    • 采集对于SEO的影响
  • 百度不收录原因分析

    百度不收录原因

    百度不收录原因分析,目前百度Spider抓取新链接的途径有两个,一是主动出击发现抓取,二就是从百度站长平台的链接提交工具中获取数据,其中通过主动推送功能“收”上来的数据最受百度Spider的欢迎。

    1109
    • 百度不收录原因
  • https网站对排名有好处吗?

    HTTPS与SEO优化

    最近几年https开始出现在我们眼前,越来越多的网站开始从http协议升级为HTTPS协议,那么站在网站SEO优化的角度,https对于网站的排名等各项指标是否能提供帮助呢?那么我们就需要先了解https协议于传统http的区别,那么你到时候就自然明白了https到底会与会影响SEO优化。

    841
    • HTTPS与SEO优化
  • 文章长度多少百度才收录

    文章长度收录

    很多人会有一个疑虑页面字数控制在多少可以更好的被搜索引擎收录呢?对于这个问题我们的分析是收录的核心关键点是什么,待你明白那么也就不会取纠结于这个字数问题,因此字数于收录与否没有直接的关系。

    554
    • 文章长度收录
  • 百度惊雷算法3.0解读

    惊雷算法,百度算法

    百度惊雷算法3.0解读,对违规行为较严重的领域(如:汽车、下载、招聘、B2B、网站SEO等)进行了针对性的打击。

    1231
    • 惊雷算法
    • 百度算法
  • 百度落地页规范之广告体验

    落地页,广告,百度

    近期百度发布了搜索违规落地页的体验问题说明,主要从pc端移动适配、页面排版布局、交互功能规范,这三方面进行了说明。各个站长还是速度的自查站点是否有违规的行为,又一波考验到来了。广告投放的关键点是什么,需要注意哪些方面呢?

    351
    • 落地页
    • 广告
    • 百度
  • SEO应聘注意事项

    SEO应聘

    SEO优化是一项充满着愚公移山精神的工作,特点就是做了不一定有效果,并且见效特别慢,这也导致了很多SEO从业者在这个岗位上很难稳定,因此在前期应聘的时候就需要注意以下方面来避免它日的悲剧。

    438
    • SEO应聘
  • 长尾关键词

    关键词建设,长尾关键词

    什么是长尾关键词,不管网站权重高低,长尾词的建设在SEO优化中起着至关重要的作用,长尾关键词不仅可以提升目标关键词的排名,其次长尾关键词占据着更多的流量

    1235
    • 关键词建设
    • 长尾关键词
  • 实测——百度api和手动提交需要重复提交吗

    百度api提交,手动提交,网站收录

    很多站点为了收录速度就会使用api提交之后还会在手动提交一下链接,期望加快收录速度,那么这种重复提交的行为对于收录有作用吗,今天就来现场实测一下。

    691
    • 百度api提交
    • 手动提交
    • 网站收录
  • 网站中毒被降权了怎么操作

    网站被黑中毒怎么优化

    网站中毒被降权了怎么操作,这种情况立即关闭网站,申请闭站保护,然后对网站进行全面的检查加固,沉淀1-6个月之后再重新上线。

    912
    • 网站被黑中毒怎么优化
  • SEO站内外优化的差异

    站内外优化差异

    SEO优化可以分为站内优化和站外优化,那么在两者之间我们应该重点优化哪一个呢?以及站内的优化的方式各有哪些方面呢?

    1428
    • 站内外优化差异
  • SEO内容优化劣迹行为你有吗

    SEO内容优化

    不管你的站点是否需要SEO优化,都需要的是优质的内容,得用户者得流量。而在实际的运行中却十分不理想,普遍的存在着垃圾制造的行为。

    469
    • SEO内容优化
  • 速查站点违规低质页面

    低质页面,百度搜索

    23年8月底,百度搜索资源平台发布了百度搜索违规低质页面问题说明,将加强对于违规和低质页面的清理,速度看看你的站点在此之列吗。

    289
    • 低质页面
    • 百度搜索
  • 用户喜欢的内容的样子,续集

    SEO优化

    SEO优化回归本质是内容的优化,内容的核心是基于用户的需求,那么你了解用户吗?用户真正想要的内容是怎么样呢?当你搞明白了这个问题,相信对于的SEO优化会有很大的帮助。

    504
    • SEO优化
  • 百度快照对排名的影响

    快照排名的关系

    百度快照是搜索引擎在抓取页面时候,保留的一份纯文本文档。就是当网站无法访问的时候,访客可以通过快照了解页面的基本的内容;或者说你当前的网络环境很差的时候,因为百度快照是一个纯文本内容,你可以在网络速度极慢的时候还是可以顺利的打开快照页面。

    880
    • 快照排名的关系
  • 智能小程序对seo效果那么好,为什么做的人还是很少

    智能小程序,seo优化

    站点开通智能小程序可以有机会获得站点logo权限、快速收录等权限,对于seo优化有着非常好的帮助。即使如此智能小程序的普及并不高,大家知道这是为什么吗?

    342
    • 智能小程序
    • seo优化
  • SEO内部链接优化

    SEO优化,内链优化

    在研究网站内链前,首先先要知道内链的种类有哪些,哪些位置会出现内链,各个位置的内链又有什么区别呢?内链对于SEO优化起到了什么作用。

    732
    • SEO优化
    • 内链优化
  • 如何让网站页面更快的收录

    页面更快收录

    如何让网站页面更快的收录,网站及页面权重、网站服务器、网站的更新频率、内容的质量等方面都影响这网站内容的收录,只要做到上面这几点网站的收录不会差

    841
    • 页面更快收录
-- 这已经是底线了,看看别的把! --