首页 >  SEO >  SEO算法 >  正文

HillTop谷歌排名算法

2303

HillTop ,是一项搜索引擎结果排序的专利,是Google的一个工程师Bharat在2001年获得的专利。Google的排序规则经常在变化,但变化最大的一次也就是基于HillTop算法进行了优化。

其实HillTop算法的指导思想和PageRank的是一致的,都是通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大:即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。如果网站是介绍“服装”的,有10个链接都是从“服装”相关的网站链接过来,那这10个链接比另外10个从“电器”相关网站链接过来的贡献要大。。在1999与2000年,当这个算法被Bharat与其他Google开发人员开发出来的时候,Bharat称这种对主题有影响的文档为“专家”文档,从这些专家文档页面到目标文档的链接决定了被链接网页“权重得分”的主要部分。

与PageRank结合HillTop算法确定网页与搜索关键词的匹配程度的基本排序过程取代了过分依靠PageRank的值去寻找那些权威页面的方法。这对于两个具有同样主题而且PR相近的网页排序过程中, HillTop算法就显得非常的重要了。HillTop同时也避免了许多想通过增加许多无效链接来提高网页PageRank值的作弊方法。

Google最早利用HillTop算法去定义相关网站:一个网站与另一个网站的相关性,实际上,HillTop算法在Google中也作为一个识别跨站点的链接交换干扰(spam)与识别相似链接的技术。HillTop算法要求:如果有两个以上相关主题的网站链接到你的网站,那么你的网站在搜索结果中出现的机会会更大,如果HillTop算法不查找到最少两个相关性的网站,那么搜索返回的结果的机会绝对是0。

HillTop算法实际上是拒绝了部分通过随意交换链接的方法来扰乱Google的排名规则而得到较好排名的做法,而在HillTop的论文中也提到很多关于识别“网站链接交换联盟”的设计:如根据IPv4地址的头3段,根据域名的别名推测:1

PR值对于搜索关键词的匹配度作用不大:因为在很多包含相应关键词的非相关主题的网站具有很高的PR值。这就是Google在HillTop算法中尽量避免的东西:应该尽其所能去列出与搜索关键词相关的结果。

总得看来,从过去到今天,很多搜索引擎停止了那种只使用一种有价值的算法去决定排名的做法。如:meta keyword标签等。这只是一个开始,Google在第一步已经完全忽略html header中的meta标签了。与不可见的meta标签相比,一个网站的可视部分使用干扰技术较在meta使用的要少,因为可视部分毕竟还要面对大部分的实际的访问者。


HillTop排名算法


算法难点

基于“专家”文档的HillTop算法最大的难点是第一次“专家文档”的筛选,从观察来看:Google显然首先给了教育(.edu),政府(.gov)和非盈利组织(.org)站点很高的优先级。在运行时:Google会在庞大的内存里储存搜索频率比较高的关键词的索引,以备搜索者在短期内继续用同样的关键字短语等进行搜索。这些高频关键词还有另外一种作用,在“佛罗里达”更新之前很多人已经注意到的了:含有那些突增的搜索关键字的网站会得到较快的更新频率。如关于:\"SARS",每天的搜索次数数以百万计:Google就会优先对与这个主题有关的网站进行更新。

回头看一下以前每个月的“Google Dance”,也能得出以下的结论:Google也明显地为一个关键词给予一个随机的“权重”,动态的根据关键词查询统计发现这些热门关键词,然后基于HillTop算法面向主题地找到这些含有热门关键词的网页,让这些网页作为相应关键词的“专家”文档,针对这些索引入口保持比较高的更新频率:这点显然对于应对突发事件非常有效。而那些含有查询频率比较低的关键词所对应的网页可能要1月才更新一次。简单的说就是:Google会根据主题的热门程度动态调整相应网站的索引的强度。而Google中文用户在总体用户中的比例与Google索引的中文网页在索引的总体网页中的比例,从某种程度上说,也是有一定关系的。


运行频率

Google所拥有的服务器体系架构就是网络上分布的一万台奔腾级服务器。而一旦了解了Hilltop算法后,我们很难相信这样的奔腾服务器能够具备如此的处理能力:试想一下,首先要从成千上万的主题性文件中找到“专家文件”,然后计算目标网页自这些专家文件的链接的得分,然后再将数值返回 Google算法的其它排名系统,并做进一步处理—而所有这些要在大约0.07秒内--这个让Google举世闻名的搜索速度内完成。确实使人难以置信。

我们认为,要保证Google一贯的“闪电般”搜索速度,Google会对搜索频率较高(热门)的查询词(即所谓的“商业词”黑名单)定期运行批处理,并将结果存储起来供日后使用。Google的数据库拥有数目庞大的高查询频率的查询词,收集自实地搜索和其AdWords自助广告系统中所使用的关键词。Google很可能对关键词搜索次数设置了上限值,凡搜索频率高于此阈值的查询词都将被纳入Hilltop系统,然后Hilltop系统再对收集的所有高查询频率关键词定期运行批处理,可能一个月一次。增量级的稍小规模的批处理可能会频繁一些。同时,每个月将对Hilltop系统运行批处理后的结果对Google的万台服务器的数据库进行同步更新,但稍小规模的批处理的数据库更新会更加频繁一些。

对于那些用户查询频率不算高,因而无此“荣幸”被纳入Hilltop算法的查询词语,Google仍将使用原来的算法并显示原来的排名结果。因而对于那些高度明确或专业化的关键词,由于它们被排除在新算法的范围之内,因而有望保持原来的排名。


HillTop算法不足

专家页面的搜索和确定对算法起关键作用,专家页面的质量决定了算法的准确性;而专家页面的质量和公平性在一定程度上难以保证。 Hiltop忽略了大多数非专家页面的影响。

在Hilltop的原型系统中,专家页面只占到整个页面的1.79%,不能全面反映民意。

Hilltop算法在无法得到足够的专家页面子集时(少于两个专家页面),返回为空,即Hilltop适合于对查询排序进行求精,而不能覆盖。这意味着Hilltop可以与某个页面排序算法结合,提高精度,而不适合作为一个独立的页面排序算法。

Hilltop中根据查询主题从专家页面集合中选取与主题相关的子集也是在线运行的,这与前面提到的HITS算法一样会影响查询响应时间。随着专家页面集合的增大,算法的可伸缩性存在不足之处。


申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seosuanfa/388
相关文章
  • 百度下拉关键词怎么做

    下拉词怎么做

    百度下拉又称百度推荐词,是百度为方便用户搜索而提供的一种关键词联想服务,提高了用户搜索效率。 百度下拉、百度搜索下拉、百度下拉框、百度搜索下拉框。

    1488
    • 下拉词怎么做
  • 百度spider抓取过程中涉及的网络协议

    百度spider,抓取

    刚才提到百度搜索引擎会设计复杂的抓取策略,其实搜索引擎与资源提供者之间存在相互依赖的关系,其中搜索引擎需要站长为其提供资源,否则搜索引擎就无法满足用户检索需求;而站长需要通过搜索引擎将自己的 内容推广出去获取更多的受众。

    435
    • 百度spider
    • 抓取
  • seo标题写法及其重要性

    seo标题写法,重要性

    标题对于SEO优化起着一个什么样的作用呢,这是一个值得思考的问题。很多人认为一个好的标题对于排名有着很好的作用,但是个人不这么认为,标题的作用没有我们想象的那么重要!

    1513
    • seo标题写法
    • 重要性
  • 网站地图sitemap制作与提交详细教程

    网站地图,sitemap

    sitemap如何处理,如何提交,移动动端和pc端是否需要都提交sitemap还是提交一次就可以了呢?那么仔细看完这篇文章,你将不再有这个疑虑。大多数搜索引擎都支持文本格式和xml格式的形式的地图,站点可以根据站点的需求随便选择一种。但是不推荐大家使用文本格式的sitemap方式提交,而是推荐使用xml格式的网站地图。

    1438
    • 网站地图
    • sitemap
  • 为什么大多数站点SEO以失败告终

    SEO失败原因,核心因素

    做SEO优化的站点很多,从事SEO行业的人也不少;但是成功的站点没几个,SEO高手没几个。那么到底是什么原因导致了大多数站点的SEO优化没有效果,都以失败告终了呢?

    1106
    • SEO失败原因
    • 核心因素
  • 网站优化中的site指令怎么使用

    site命令的使用方法,注意事项

    讲述site命令的定义,以及site命令为什么说对于SEO优化来说有着至关重要的作用。了解该命令的真正含义对于排名优化十分重要。

    1884
    • site命令的使用方法
    • 注意事项
  • seo的主要策略和流程内容

    整站优化策略

    整站优化策略、介绍seo的主要策略和流程内容。对一个网站进行综合的优化,包括了域名选择、网站结构或栏目设置、内部及外部链接,内容建设,访问者体验等多个方面进行的优化。

    2078
    • 整站优化策略
  • 新网站如何快速提升排名

    如何快速提升排名,新网站SEO优化

    新网站如何SEO优化快速提升排名,需定时更新内容,保证更新内容的质量,内容不仅要做到 原创,更要注重内容的价值,把握SEO优化的核心是什么,不能为了排名而去优化网站,舍本逐末。

    1526
    • 如何快速提升排名
    • 新网站SEO优化
  • 网站页面更新对seo的影响

    页面更新的影响

    页面更新是网站优化中一个提升网站评级的重要因素,一个拥有良好更新频率的站点可以获得更好的排名优待。但是很多站点对于更新有一定的误解。

    838
    • 页面更新的影响
  • 快排软件提升排名的原理

    快排排名的原理

    只有有流量的页面才能证明是一个被用户所认可的页面。因此排名的相关算法都是根据这一点进项展开的,有流量第一就必须有点击,但并不是有了点击就会有排名的提升。

    2857
    • 快排排名的原理
  • 如何快速提升关键词排名?

    提升关键词排名

    如何快速提升关键词排名?可以从流量冲击、时效性热点内容 、高质量外链、网站整体权重、交换一些友情链接,多角度同时进行有效快速提升关键词排名。

    1277
    • 提升关键词排名
  • CDN防止网站被黑攻击

    CDN,网站被黑

    CDN的可以有效的隐藏网站的真实的IP地址,用户访问到的是离自己最近的CDN服务器;不仅仅加快了全球各地用户的访问速度体验,同时因为IP的隐藏,加大了攻击者访问到真实地址的难度,另一方学会如何设置好服务器的安全组,也可以有效防止网站被黑。

    962
    • CDN
    • 网站被黑
  • SEO优化之网站抓取频次

    抓取频次

    今天我们要聊的是每一个想要提升自己网站搜索引擎优化(SEO)效果的人都应该了解的一个重要概念——网站抓取频次。你是否曾经好奇过,为什么有的网站内容更新后能够迅速被搜索引擎发现,而你的却需要等待许久?这一切都与抓取频次息息相关。

    64
    • 抓取频次
  • 搜索引擎蜘蛛爬虫名大全

    搜索蜘蛛大全

    对于seo们清楚掌握主流搜索引擎的爬虫名称十分的关键,掌握各大搜索引擎蜘蛛爬虫,对我们开展网站SEO优化具有挺大作用;作者搜集了各大搜索引擎的蜘蛛爬虫UA,便于你需要时查看。

    1957
    • 搜索蜘蛛大全
  • 薪水陷阱:警惕短期收入如何扼杀你的职业成长

    职业规划

    今天我们不讲SEO,来讲讲职业规划,也许可以拯救一部分人的未来。不管大家从事什么职业,在求职的时候最关心的必然是薪水,还有一部分人会关注自身的职业发展。但是大多数情况下很多人会为了薪水妥协牺牲自身的职业发展。很多时候我们因为各种原因陷入了薪水陷阱,逐步的断送了自己的未来。

    1752
    • 职业规划
  • 必应搜索SEO优化值得做吗

    必应搜索,SEO优化

    对于站点SEO优化来说,必应不但可以带来可观的流量,也同时降低了站点运营风险,如今搜索引擎竞争激烈,算法调整,站点流量的稳定性就是一个不可控的因素。在条件允许的前提下,必应搜索是非常值得一做。

    867
    • 必应搜索
    • SEO优化
  • 什么样的外链才是高质量外链?

    高质量外链标准

    外链建设是SEO优化中重要的一项,可以有效快速的提升网站的抓取数量,其实是对于新站更加有意义,可以快速的提升网站的权重,但是随着搜索引擎算法不断的迭代,也推出了打击外链买卖作弊的行为,比如百度搜索引擎就有绿萝算法。

    936
    • 高质量外链标准
  • 百度SEO抓取友好性之URL规范

    百度SEO,URL规范

    今天潘某人SEO带大家探讨下百度SEO抓取友好性之URL规范,URL结构设置的对于搜索引擎的抓取会有重大的影响,那么我们应该如何更加合理的设置站点url结构。

    712
    • 百度SEO
    • URL规范
-- 这已经是底线了,看看别的把! --