谷歌的算法与百度的算法到底有什么不同?

简单讲,其不同是方方面面的。先明确一个概念。网页排序算法其实只是一个统称,并不对应一个唯一的具体算法,而是一个混杂了多种算法的排序逻辑,本质上是一个排序系统。就好像一道菜的做法,从洗菜、腌制、烹煮、调味是有很多道工序的,不是一句“大火烹算法”或“小火煮算法”能概括的。所以不能简单地说谷歌在用A算法,而百度在用B算法。两套系统是由不同研发人员,在不同的时间和地域,基于不同的资源、用户需求、用户反馈、设计思想、评价方式构造的两个不同的排序系统。可以类比MSN和QQ,亚马逊和天猫,它们的展现形式和使用体验或许类似,但内部构造的区别却是方方面面的。如果要准确回答这个问题,必须首先了解百度和Google各自的排序算法。

据坊间传闻,了解Google核心排序算法的全球总人数加起来不超过20人(包括Larry Page在内),而且这些人都在Google总部,甚至连前谷歌中国高##层都不在其中。当然这只是传闻,我相信实际人数会比这个高,其机#密程度也没到这种地步,但无论如何,我想LZ在知乎是不可能得到确切答案的(这种商业机#密即使真的有人知道,他也不可能明说的,否则就等着被起诉吧)。我只就信息检索常识的角度来说一下可能会不同的方面,以及它们对排序结果的影响,让大家有个大概的认识。这里不涉及任何公司的技术和机#密,所有涉及技术均可以从信息检索文献中查到。信息检索系统,仅就排序而言,主要流程可以归纳为两部分:特征选取,特征使用。前者选择/抽取特征,后者利用特征进行排位计算。所谓特征就是反应当前查询下,各个网页好坏的一个指标,比如PageRank,BM25,用户的个性化倾向,用户反馈等。匹配度越高的网页应该排序越靠前。

1)  特征选取的不同除了在信息检索学术界有很多公认比较好的特征两家都会使用外--比如关键词的命中比例、命中紧邻程度、命中位置、PageRank(百度用李彦宏申请专利的一个类似特征)。两个公司会根据自己不同的需要和想法使用不同的特征。比如Google的用户分布在全球各地,肯定要非常重视语言/地域特征,搜中文给中文网页更好,搜英文给英文网页就好,即使同样搜英文,大陆用户、美国用户期望看到的结果也往往不同。而百度由于在初期很长的时间内只做中文搜索,这些特征初期估计没有或者用的很轻。再比如google有gmail的账号体系,而百度有知道、贴吧的账号体系,两者能够获得用户的个性化特征也是不同的(关于个人信息的收集,互联网无隐私不是什么秘密,大家心里有数就好)。总之两家由于自身定位和信息来源的不同,拿到和使用的特征是不一样的。


百度与谷歌的区别


2)使用特征方法的不同(本身写了很多,想了想,这段还是删了,总之是传闻,若是假的大家得不到有效知识,若是真的我可能就说了不该说的,真是倍感压力。。。)仅科普一下这个概念吧,目前利用特征主要方法主要有两种:人工规则、机器学习。两者最大的区别在于,前者的规则是开发人员拍脑袋想出来的,后者的规则是使用统计学方法由机器学出来的(具体怎么学请参见《机器学习》相关知识,简单讲就是你先人工标注大量搜索结果,注意是大量的,并告诉机器哪些是好结果,哪些是差结果,然后让机器通过这些例子自己总结规律。之后就可以让机器利用这些规律自动判断新的搜索结果好坏了)。这两种方法其实各有利弊,人工规则精准,但过于武断,后期会变得过于复杂庞大,不灵活;机器学习更贴合实际数据,但需要大量准确的标注数据,且不善于针对性地处理比较罕见的查询。

总之,即使两家公司用相同的特征,使用的方法也不可能完全相同;如果都用机器学习,标注数据和优化标准会有不同;如果都用规则,具体规则也会不同。这一切取舍选择,会以大部分实际用户的需求作为准绳。从这个角度讲,百度不是更懂中文,而是更懂中国网民,尤其是占绝大部分的草根网民。综上所述,两者算法不同处有很多。但无论如何不同,占绝大多数的用户需求会决定最终的排序效果。所以从结果而言google多国语言搜索更好、学术搜索更高;而百度娱乐搜索更好、草根需求满足更好。除了某些在知乎写了不能发表的内容,无论方法有多不同,搜索结果都是由绝大部分用户需求所决定的。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seosuanfa/394

相关文章

  • 关键词密度,在SEO中的作用!

    关键词密度

    关键词密度对于关键词的排名有着重要影响,那么关键词密度多少合适呢?相信大家经常听到网上的说法,控制关键词密度2-8%之间。这种说法其实是不对的,对于不同行业适合的关键密度肯定是不一样的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1282
    • 关键词密度
  • 一文带你了解百度搜索引擎抓取收录的原理

    百度seo,抓取,收录

    作为一个seo从业者三句话不离收录,但是大家对于收录的原理真的了解吗,相信很多了解到的就是蜘蛛来抓取然后内容收录,但其实这种理解是比较片面的,了解搜索引擎的收录原理对于提升收录是非常有帮助的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1068
    • 百度seo
    • 抓取
    • 收录
  • 网站Site出图率是什么?对排名有什么影响?

    Site出图率

    网站Site出图率是什么?对排名有什么影响?对于SEO优化来说网站的site出图率越高越好,这个更主要的处于在吸引用户点击作用上的考量,有图片的内容更容易获取用户的目光,提高了获得点击的几率,对于关键词的排名可以起到一个很好的促进作用。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1378
    • Site出图率
  • 百度清风算法解读

    百度清风算法

    清风算法针对违规标题及虚假下载问题,包括关键词堆砌、虚假标题和虚假下载等问题。所以简单的理解就是清风算法主要打击的就是标题党,通过虚假的标题来获取用户的点击的一种行为。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3002
    • 百度清风算法
  • 如何利用行业关键词提高曝光量

    关键词曝光

    同样的SEO优化方案对于不同行业的效果是不一样的,我们如何利用行业关键词去提升网站的曝光是一项重要的技巧。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1961
    • 关键词曝光
  • 薪水陷阱:警惕短期收入如何扼杀你的职业成长

    职业规划

    今天我们不讲SEO,来讲讲职业规划,也许可以拯救一部分人的未来。不管大家从事什么职业,在求职的时候最关心的必然是薪水,还有一部分人会关注自身的职业发展。但是大多数情况下很多人会为了薪水妥协牺牲自身的职业发展。很多时候我们因为各种原因陷入了薪水陷阱,逐步的断送了自己的未来。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 5034
    • 职业规划
  • 网站栏目数量对于权重的影响

    网站栏目,权重,seo

    ​如果您近期正在打算搭建网站,那么看到这篇文章就赶上了。很多站点在网站搭建的时候就为后期的SEO优化埋下了诸多的坑。如网站的栏目结构可以说是重灾区。网站的栏目数量要适当不宜多,对于大多数网站栏目数量控制在3-5左右差不多。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 714
    • 网站栏目
    • 权重
    • seo
  • 修改网站标题对排名有影响吗

    修改标题,排名影响

    修改网站的关键词标题等会影响网站的排名吗,网上大多数的说法是站点的关键词标题不能够轻易修改,对于网站的排名影响很大,但是真相并非如此......

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2048
    • 修改标题
    • 排名影响
  • “TF-IDF”算法与网站SEO关系

    TF-IDF算法

    “TF-IDF”算法与网站SEO关系?这个算法决定着什么样的词可以成为网站的关键词,同时决定着页面在搜索引擎的排名竞争力。TF-IDF​是一种核算方法,用以评价一字词关于一个文件集或一个语料库中的其间一份文件的重要程度。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2729
    • TF-IDF算法
  • 为什么打击采集行为,采集站还是有很高权重

    采集,权重

    搜索引擎不断的打击采集行为,但是采集站点的收录排名和权重还是非常好;如果你无法理解那么你对于搜索引擎的核心不够了解,本文带你探索搜索引擎和采集的那点事,教你如果正确面对采集行为。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1055
    • 采集
    • 权重
  • 带Nofollow标签的外链还有价值吗?

    nofollow,外链

    在 SEO(搜索引擎优化)的世界里,“外链”一直被视为网站权重和排名的重要因素之一。然而,当这些外链被加上rel="nofollow"标签时,这样的链接还有价值吗? 带Nofollow标签的外链毫无价值吗?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 336
    • nofollow
    • 外链
  • 百度原创星火计划是什么

    星火计划

    百度原创星火计划(又称伪原创的算法)是在,百度搜索团队首次表示,正在设计一套较完善的原创识别算法,并提出了互联网生态的项目课题,是为了解决原创内容的搜索排名问题。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1800
    • 星火计划
  • 百度指数是如何计算的

    百度指数的计算

    百度指数是如何计算的?百度指数是我们网络推广中经常用到的一种工具,你使用过吗?百度指数是用来综合反映该关键词在过去1天用户对它的关注和媒体对他的关注的一个参考值。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3328
    • 百度指数的计算
  • 友情链接的作用

    友链的作用

    如果说你对于友情链接作用,只是认为可以提升网站的权重,那么只能证明你狭隘了。说真的其实现在友情链接对于网站权重的贡献并不是其最重要的作用,今天我们就讲一下友情链接还有哪些作用。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1419
    • 友链的作用
  • 百度站长平台的外链分析工具

    外链分析工具

    百度站长平台的外链分析工具解析,一个网站发外链最多有多少条有效?发布的外链哪些会进行投票加分?同页面两个外链会计算哪个外链进行投票?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2581
    • 外链分析工具
  • 如何通过软文营销来提高关键词排名

    软文SEO优化

    如何通过软文营销来提高关键词排名呢?其中关键的地方就在于关键词的选择和关键词的布局。因为在一篇高质量的软文当中,关键词既不能太多又不能太少。另外对于关键词的选择和使用也是有许多讲究的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1956
    • 软文SEO优化
  • 揭秘搜索引擎蜘蛛IP:如何轻松获取所有搜索引擎蜘蛛IP?

    蜘蛛IP,搜索引擎

    在搜索引擎优化(SEO)的世界中,搜索引擎蜘蛛的IP地址如同“隐形访客”的身份证号码。掌握这些IP不仅能帮助你精准识别真实蜘蛛,还能优化网站抓取策略、过滤垃圾流量,甚至预判网站的收录趋势。那么,如何高效获取并验证这些IP?今天潘某人SEO将为带你深入探索!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 257
    • 蜘蛛IP
    • 搜索引擎
  • 百度绿萝算法打击哪些行为

    绿萝算法

    百度绿萝算法解读,绿萝算法是一种为了打击通过买卖链接干扰搜索引擎算法获得排名的行为而设计的,主要为了保证搜索排名的公平性,保护真正有价值内容获得更高的流量,保障了搜索引擎生态的健康发展。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1726
    • 绿萝算法