HillTop谷歌排名算法

HillTop ,是一项搜索引擎结果排序的专利,是Google的一个工程师Bharat在2001年获得的专利。Google的排序规则经常在变化,但变化最大的一次也就是基于HillTop算法进行了优化。

其实HillTop算法的指导思想和PageRank的是一致的,都是通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大:即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。如果网站是介绍“服装”的,有10个链接都是从“服装”相关的网站链接过来,那这10个链接比另外10个从“电器”相关网站链接过来的贡献要大。。在1999与2000年,当这个算法被Bharat与其他Google开发人员开发出来的时候,Bharat称这种对主题有影响的文档为“专家”文档,从这些专家文档页面到目标文档的链接决定了被链接网页“权重得分”的主要部分。

与PageRank结合HillTop算法确定网页与搜索关键词的匹配程度的基本排序过程取代了过分依靠PageRank的值去寻找那些权威页面的方法。这对于两个具有同样主题而且PR相近的网页排序过程中, HillTop算法就显得非常的重要了。HillTop同时也避免了许多想通过增加许多无效链接来提高网页PageRank值的作弊方法。

Google最早利用HillTop算法去定义相关网站:一个网站与另一个网站的相关性,实际上,HillTop算法在Google中也作为一个识别跨站点的链接交换干扰(spam)与识别相似链接的技术。HillTop算法要求:如果有两个以上相关主题的网站链接到你的网站,那么你的网站在搜索结果中出现的机会会更大,如果HillTop算法不查找到最少两个相关性的网站,那么搜索返回的结果的机会绝对是0。

HillTop算法实际上是拒绝了部分通过随意交换链接的方法来扰乱Google的排名规则而得到较好排名的做法,而在HillTop的论文中也提到很多关于识别“网站链接交换联盟”的设计:如根据IPv4地址的头3段,根据域名的别名推测:1

PR值对于搜索关键词的匹配度作用不大:因为在很多包含相应关键词的非相关主题的网站具有很高的PR值。这就是Google在HillTop算法中尽量避免的东西:应该尽其所能去列出与搜索关键词相关的结果。

总得看来,从过去到今天,很多搜索引擎停止了那种只使用一种有价值的算法去决定排名的做法。如:meta keyword标签等。这只是一个开始,Google在第一步已经完全忽略html header中的meta标签了。与不可见的meta标签相比,一个网站的可视部分使用干扰技术较在meta使用的要少,因为可视部分毕竟还要面对大部分的实际的访问者。


HillTop排名算法


算法难点

基于“专家”文档的HillTop算法最大的难点是第一次“专家文档”的筛选,从观察来看:Google显然首先给了教育(.edu),政府(.gov)和非盈利组织(.org)站点很高的优先级。在运行时:Google会在庞大的内存里储存搜索频率比较高的关键词的索引,以备搜索者在短期内继续用同样的关键字短语等进行搜索。这些高频关键词还有另外一种作用,在“佛罗里达”更新之前很多人已经注意到的了:含有那些突增的搜索关键字的网站会得到较快的更新频率。如关于:\"SARS",每天的搜索次数数以百万计:Google就会优先对与这个主题有关的网站进行更新。

回头看一下以前每个月的“Google Dance”,也能得出以下的结论:Google也明显地为一个关键词给予一个随机的“权重”,动态的根据关键词查询统计发现这些热门关键词,然后基于HillTop算法面向主题地找到这些含有热门关键词的网页,让这些网页作为相应关键词的“专家”文档,针对这些索引入口保持比较高的更新频率:这点显然对于应对突发事件非常有效。而那些含有查询频率比较低的关键词所对应的网页可能要1月才更新一次。简单的说就是:Google会根据主题的热门程度动态调整相应网站的索引的强度。而Google中文用户在总体用户中的比例与Google索引的中文网页在索引的总体网页中的比例,从某种程度上说,也是有一定关系的。


运行频率

Google所拥有的服务器体系架构就是网络上分布的一万台奔腾级服务器。而一旦了解了Hilltop算法后,我们很难相信这样的奔腾服务器能够具备如此的处理能力:试想一下,首先要从成千上万的主题性文件中找到“专家文件”,然后计算目标网页自这些专家文件的链接的得分,然后再将数值返回 Google算法的其它排名系统,并做进一步处理—而所有这些要在大约0.07秒内--这个让Google举世闻名的搜索速度内完成。确实使人难以置信。

我们认为,要保证Google一贯的“闪电般”搜索速度,Google会对搜索频率较高(热门)的查询词(即所谓的“商业词”黑名单)定期运行批处理,并将结果存储起来供日后使用。Google的数据库拥有数目庞大的高查询频率的查询词,收集自实地搜索和其AdWords自助广告系统中所使用的关键词。Google很可能对关键词搜索次数设置了上限值,凡搜索频率高于此阈值的查询词都将被纳入Hilltop系统,然后Hilltop系统再对收集的所有高查询频率关键词定期运行批处理,可能一个月一次。增量级的稍小规模的批处理可能会频繁一些。同时,每个月将对Hilltop系统运行批处理后的结果对Google的万台服务器的数据库进行同步更新,但稍小规模的批处理的数据库更新会更加频繁一些。

对于那些用户查询频率不算高,因而无此“荣幸”被纳入Hilltop算法的查询词语,Google仍将使用原来的算法并显示原来的排名结果。因而对于那些高度明确或专业化的关键词,由于它们被排除在新算法的范围之内,因而有望保持原来的排名。


HillTop算法不足

专家页面的搜索和确定对算法起关键作用,专家页面的质量决定了算法的准确性;而专家页面的质量和公平性在一定程度上难以保证。 Hiltop忽略了大多数非专家页面的影响。

在Hilltop的原型系统中,专家页面只占到整个页面的1.79%,不能全面反映民意。

Hilltop算法在无法得到足够的专家页面子集时(少于两个专家页面),返回为空,即Hilltop适合于对查询排序进行求精,而不能覆盖。这意味着Hilltop可以与某个页面排序算法结合,提高精度,而不适合作为一个独立的页面排序算法。

Hilltop中根据查询主题从专家页面集合中选取与主题相关的子集也是在线运行的,这与前面提到的HITS算法一样会影响查询响应时间。随着专家页面集合的增大,算法的可伸缩性存在不足之处。


申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seosuanfa/388

相关文章

  • 网站排名优化seo学习心得

    seo学习心得

    近几年网络推广的费用成本直线上升,正是因为如何免费的SEO优化更加的得到青睐,可以有效的降低推广成本,因此对于SEO优化这块的专业人士的需求还是很大的,SEO优化作为在学校之后没有设立任何教学的领域,更多的依靠社会人士的自学来创造出相关的专业人士。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1378
    • seo学习心得
  • 内容采集对于网站优化有什么影响

    采集对于排名影响

    内容采集、伪原创、抄袭等操作方式对于网站排名会不会有影响;凡事都有两面性,重点在于我们找到里面的平衡点,对于seo优化来说采集伪原创的方式并不是不可以使用,关键在于掌握其中的奥秘.....

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1537
    • 采集对于排名影响
  • 一个简单的操作让你的网站安全立马上一个级别

    网站安全,防火墙

    对于SEO来说,网站安全是极为重要,因为网站被黑导致内容被串改成黑产,被搜索引擎降权K站的比比皆是,今天潘某人SEO教大家一个简单的操作就可以把网站的安全提升一个级别。快速检查下自己站点是否正确设置了,虽然不是万无一失,但还是非常有用的。平时还是应该定期排查,及时打补丁,免得追悔莫及!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 5209
    • 网站安全
    • 防火墙
  • 移动端适配的几种实现方式

    移动端适配

    移动端适配的几种实现方式,rem布局、flex布局、百分比布局、字体适配、vm布局。纯CSS的相对单位vw,vh,它们相对的是终端视口,视口(移动端你就可以当成屏幕就好啦)的宽为100vw,高为100vh。使用起来很简单

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 14726
    • 移动端适配
  • 如何增加关键词密度

    关键词密度

    关键词密度需要控制得当,关键词密度不同行业也是不同的不可人云亦云,还得自己通过不断试验测试分析,同时关键词铺排要自然分散,增加关键词密度不是堆砌关键词。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1918
    • 关键词密度
  • TDK标签优化的技巧

    TDK标签,TDK优化

    什么是TDK,网站关键词、标签、描述还重要吗?TDK该怎么写呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1658
    • TDK标签
    • TDK优化
  • 网站移动端网页适配那种方式好呢?

    移动适配

    网站移动端网页适配那种方式好呢?何规划移动端,是自适应的方式,还是独立移动站点的方法,会在SEO优化上面具有更大的优势呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1661
    • 移动适配
  • SEO优化内容应该走心还是走量

    SEO优化,内容数量质量

    SEO优化内容应该应该注重内容质量还是内容数量,作为SEO一员的你肯定会困扰于,索引量上不去,展现低,流量不理想会。不管怎么做就是没有明显改变,那么希望这篇文章可以帮助到你。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 764
    • SEO优化
    • 内容数量质量
  • 百度自然搜索排序规则

    排序规则,百度自然搜索

    搜索引擎排名规则应该是广大站点探究的话题,只有对各大搜索引擎的排名规则有所了解,才能更有针对性的做优化,最短时间获得最好的效果。那么那些因素是决定排名的主要的因素,分享下个人的理解。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1158
    • 排序规则
    • 百度自然搜索
  • 你如何看待低权重站点做友链?

    友链,权重

    在SEO优化的领域中,友情链接交换一直是提升网站表现的一个重要策略。但随着时间的发展,对于友情链接的价值和适用性,许多人的理解似乎出现了一些偏差。今天潘某人SEO就来聊聊低权重站点是否适合进行友链交换,以及如何正确看待友情链接对SEO的影响。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 424
    • 友链
    • 权重
  • SEO诊断思路:从展现到点击,轻松判断你的网站优化效果!

    SEO诊断,网站优化

    在竞争激烈的互联网时代,网站SEO优化早已成为每个站长和运营者必须掌握的核心技能。然而,很多人做了大量的内容优化、关键词布局,却始终看不到排名提升、流量增长。问题出在哪?你真的会“诊断”网站的SEO效果吗?今天,潘某人SEO从展现与排名出发,教你如何快速判断网站的SEO优化效果。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 479
    • SEO诊断
    • 网站优化
  • SEO真的是免费获取流量吗?

    SEO,免费流量

    ​很多人对于SEO的认知是免费流量,做SEO的目的也是为了获取免费流量。正式因为这种错误的认知,才造就了众多站点的SEO之路通往了失败的大门。SEO的确是属于免费流量的渠道,但是获取过程并非你所认知的低成本。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 991
    • SEO
    • 免费流量
  • 如何通过软文营销来提高关键词排名

    软文SEO优化

    如何通过软文营销来提高关键词排名呢?其中关键的地方就在于关键词的选择和关键词的布局。因为在一篇高质量的软文当中,关键词既不能太多又不能太少。另外对于关键词的选择和使用也是有许多讲究的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2097
    • 软文SEO优化
  • 怎么增加站长工具关键词库

    站长关键词库

    了解了什么是关键词库,接下来就要了解到关键词的意义了。关键词库和网站的权重是息息相关的,大家可以看一下网站权重的计算方法就明白了。简单的讲权重是根据预估流量来划分的,而预估流量就是来源于关键词库中的关键词的排名所决定的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1305
    • 站长关键词库
  • 百度死链提交工具使用说明

    百度死链提交

    百度死链提交工具使用说明,当网站死链数据累积过多时,并且被展示到搜索结果页中,对网站本身的访问体验和用户转化都起到了负面影响。另一方面,百度检查死链的流程也会为网站带来额外负担,影响网站其他正常页面的抓取和索引。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 6664
    • 百度死链提交
  • 什么是闭站保护?如何申请与解除?

    闭站保护,网站索引

    闭站保护是用于保护网站因为某些原因需要关停一段时间,来保护网站在搜索引擎中的索引数据,从而不会因为这段时间无法访问造成过大的影响。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1323
    • 闭站保护
    • 网站索引
  • SEO行业面临的困境

    SEO行业的困境

    SEO行业面临的困境,客户对于SEO不正确的理解和期望值过高​、美好的SEO前景、Seo竞争如火如荼该放弃还是坚持 、从事seo每一个阶段都要有不同的方略 。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1903
    • SEO行业的困境
  • 如何做好原创内容版权保护

    版权保护,原创内容保护,百度时间因子

    分享如何对站点原创内容的保护,如何查找抄袭站点,如何保留抄袭证据等方法,来保护自己的合法权益。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1447
    • 版权保护
    • 原创内容保护
    • 百度时间因子