谷歌的算法与百度的算法到底有什么不同?

简单讲,其不同是方方面面的。先明确一个概念。网页排序算法其实只是一个统称,并不对应一个唯一的具体算法,而是一个混杂了多种算法的排序逻辑,本质上是一个排序系统。就好像一道菜的做法,从洗菜、腌制、烹煮、调味是有很多道工序的,不是一句“大火烹算法”或“小火煮算法”能概括的。所以不能简单地说谷歌在用A算法,而百度在用B算法。两套系统是由不同研发人员,在不同的时间和地域,基于不同的资源、用户需求、用户反馈、设计思想、评价方式构造的两个不同的排序系统。可以类比MSN和QQ,亚马逊和天猫,它们的展现形式和使用体验或许类似,但内部构造的区别却是方方面面的。如果要准确回答这个问题,必须首先了解百度和Google各自的排序算法。

据坊间传闻,了解Google核心排序算法的全球总人数加起来不超过20人(包括Larry Page在内),而且这些人都在Google总部,甚至连前谷歌中国高##层都不在其中。当然这只是传闻,我相信实际人数会比这个高,其机#密程度也没到这种地步,但无论如何,我想LZ在知乎是不可能得到确切答案的(这种商业机#密即使真的有人知道,他也不可能明说的,否则就等着被起诉吧)。我只就信息检索常识的角度来说一下可能会不同的方面,以及它们对排序结果的影响,让大家有个大概的认识。这里不涉及任何公司的技术和机#密,所有涉及技术均可以从信息检索文献中查到。信息检索系统,仅就排序而言,主要流程可以归纳为两部分:特征选取,特征使用。前者选择/抽取特征,后者利用特征进行排位计算。所谓特征就是反应当前查询下,各个网页好坏的一个指标,比如PageRank,BM25,用户的个性化倾向,用户反馈等。匹配度越高的网页应该排序越靠前。

1)  特征选取的不同除了在信息检索学术界有很多公认比较好的特征两家都会使用外--比如关键词的命中比例、命中紧邻程度、命中位置、PageRank(百度用李彦宏申请专利的一个类似特征)。两个公司会根据自己不同的需要和想法使用不同的特征。比如Google的用户分布在全球各地,肯定要非常重视语言/地域特征,搜中文给中文网页更好,搜英文给英文网页就好,即使同样搜英文,大陆用户、美国用户期望看到的结果也往往不同。而百度由于在初期很长的时间内只做中文搜索,这些特征初期估计没有或者用的很轻。再比如google有gmail的账号体系,而百度有知道、贴吧的账号体系,两者能够获得用户的个性化特征也是不同的(关于个人信息的收集,互联网无隐私不是什么秘密,大家心里有数就好)。总之两家由于自身定位和信息来源的不同,拿到和使用的特征是不一样的。


百度与谷歌的区别


2)使用特征方法的不同(本身写了很多,想了想,这段还是删了,总之是传闻,若是假的大家得不到有效知识,若是真的我可能就说了不该说的,真是倍感压力。。。)仅科普一下这个概念吧,目前利用特征主要方法主要有两种:人工规则、机器学习。两者最大的区别在于,前者的规则是开发人员拍脑袋想出来的,后者的规则是使用统计学方法由机器学出来的(具体怎么学请参见《机器学习》相关知识,简单讲就是你先人工标注大量搜索结果,注意是大量的,并告诉机器哪些是好结果,哪些是差结果,然后让机器通过这些例子自己总结规律。之后就可以让机器利用这些规律自动判断新的搜索结果好坏了)。这两种方法其实各有利弊,人工规则精准,但过于武断,后期会变得过于复杂庞大,不灵活;机器学习更贴合实际数据,但需要大量准确的标注数据,且不善于针对性地处理比较罕见的查询。

总之,即使两家公司用相同的特征,使用的方法也不可能完全相同;如果都用机器学习,标注数据和优化标准会有不同;如果都用规则,具体规则也会不同。这一切取舍选择,会以大部分实际用户的需求作为准绳。从这个角度讲,百度不是更懂中文,而是更懂中国网民,尤其是占绝大部分的草根网民。综上所述,两者算法不同处有很多。但无论如何不同,占绝大多数的用户需求会决定最终的排序效果。所以从结果而言google多国语言搜索更好、学术搜索更高;而百度娱乐搜索更好、草根需求满足更好。除了某些在知乎写了不能发表的内容,无论方法有多不同,搜索结果都是由绝大部分用户需求所决定的。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seosuanfa/394

相关文章

  • 百度搜索引擎Spider抓取系统的基本框架

    搜索引擎,百度spider

    互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider等。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 953
    • 搜索引擎
    • 百度spider
  • 如何找到有效的关键词?

    有效关键词

    如何找到有效的关键词? 关键词对电商卖家来说,非常重要。它能给listing带来流量,帮助刺激销量。那么,如何寻找合适的关键词呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1548
    • 有效关键词
  • keywords、description已经不重要了?

    keywords和description,SEO标签,关键词和描述

    不要随大众觉得keywords、description,即SEO优化中常说的关键词和描述两大SEO标签不在重要,这种观点过于果断缺乏依据。无论搜索引擎怎么调整。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2357
    • keywords和description
    • SEO标签
    • 关键词和描述
  • 伪原创文章会被收录吗

    伪原创,收录

    伪原创的方法有哪些?伪原创对于网站的收录有影响吗?为什么很多站点优化效果不好呢?大多数是因为站点内容的问题,内容不够优质是导致SEO优化失败的主要因素。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1443
    • 伪原创
    • 收录
  • 百度细雨算法打击什么

    百度算法,细雨算法

    细雨算法主要是正对B2B网站,地址栏内容虚假内容进行打击,对于B2B网站应该如何应对。怎么样的内容才是符合百度细雨算法规范的!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2555
    • 百度算法
    • 细雨算法
  • 百度自然搜索排序规则

    排序规则,百度自然搜索

    搜索引擎排名规则应该是广大站点探究的话题,只有对各大搜索引擎的排名规则有所了解,才能更有针对性的做优化,最短时间获得最好的效果。那么那些因素是决定排名的主要的因素,分享下个人的理解。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1110
    • 排序规则
    • 百度自然搜索
  • 新站被快速收录的秘诀

    新站快速收录的方法

    新站被快速收录的秘诀,如何让新站快速的收录。如果你能做到下面这些,你的网站就可能在12个小时内被收录。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1569
    • 新站快速收录的方法
  • 老域名建站对seo真的有好处吗?

    域名,建站

    在SEO的世界里,一个普遍的观点是使用老域名建站可以带来更好的搜索排名效果。然而,事实真的如此吗?今天与潘某人SEO一起深入探讨一下老域名建站在SEO中的真正影响,并揭开一些常见的误区。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 320
    • 域名
    • 建站
  • 服务器的安全对SEO重要性

    服务器安全对SEO的重要性

    服务器的安全对SEO重要性?服务器的安全性,一般用户不怎么关注,因为安全意识不强,就出现很多网站被攻击的问题,影响到网站的安全服务器。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2115
    • 服务器安全对SEO的重要性
  • 造成百度spider抓取异常的原因

    百度spider,抓取

    有一些网页,内容优质,用户也可以正常访问,但是Baiduspider却无法正常访问并抓取,造成搜索结果覆盖率缺失,对百度搜索引擎对站点都是一种损失,百度把这种情况叫“抓取异常”。对于大量内容无法正常抓取的网站,百度搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、排序上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 936
    • 百度spider
    • 抓取
  • 图片懒加载对于SEO优化有影响吗?

    懒加载,延迟加载,seo优化

    网站图片使用懒加载也就是延迟加载技术,对于SEO优化会有不良的负面影响吗?对于图片的延迟加载我们应该如何去看待处理,才能做到兼顾网站的加载速度以及SEO优化的效果呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2127
    • 懒加载
    • 延迟加载
    • seo优化
  • 百度快照更新时间的解析

    百度快照,快照时间更新

    百度快照时间更新和网站的权重是一个什么样的关系呢?很多站点一直的对于快照和权重的关系存在着误解。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1122
    • 百度快照
    • 快照时间更新
  • 索引量和收录量的区别

    关系区别,收录量,索引量

    索引量和收录量的很容易混淆认清两者的关系对于网站优化十分的有帮助,分析索引量和收录量的数据可以及时的发现网站的问题。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2685
    • 关系区别
    • 收录量
    • 索引量
  • 下载站注意,清风算法4.0来了

    清风算法4.0,SEO算法,下载站

    如果你的站点是下载站,那么请一定进来看下百度清风算法4.0版本,2021-09-02百度搜索资源平台发布公告对清风算法进行升级,进入了4.0版本。本次清风算法升级加大了针对不符合规范的低质下载站,将限制其在百度搜索结果中的展现。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1598
    • 清风算法4.0
    • SEO算法
    • 下载站
  • 如何用domian命令查询网站反链数量

    domain命令如何使用,外链反链数如何查询

    很多人会使用domain指令去查询网站的外链数量,更有机构公司把domain值当作外链数量的考核标准,真的是十分荒谬,domian真正的作用是!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 4975
    • domain命令如何使用
    • 外链反链数如何查询
  • 巧用Robots避免蜘蛛黑洞

    Robots,蜘蛛黑洞

    搜索引擎的蜘蛛黑洞指的是搜索引擎蜘蛛在抓取站点内容的时候出现了大量雷同内容的url,导致搜索引擎蜘蛛一直被困在无限的循环中,如黑洞一般。直接的结果就会导致消耗大量的抓取资源。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1020
    • Robots
    • 蜘蛛黑洞
  • 网站seo如何提升排名,失败的原因什么?

    seo如何提升排名,SEO失败的原因

    大家是不是会遇到这种情况,网站不管自己怎么优化,并且优化是按照算法以及各种标准是执行的,但是就是没有很好的效果,排名坚如磐石一动不动。那么到底是什么原因,是优化的方式不对还是?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1385
    • seo如何提升排名
    • SEO失败的原因
  • 原创 ≠ 高收录高排名!真正决定内容成败的,是这4个关键点!

    原创,收录

    在搜索引擎算法不断升级的今天,过去那种靠技术“钻空子”就能轻松获取排名的时代已经一去不复返了。越来越多的内容创作者和网站运营者意识到:只有产出优质内容,才能真正赢得流量与用户。于是,大家纷纷转向原创、伪原创,试图通过“原创内容”来提升收录、获得排名。但现实却往往令人失望——很多站点即便坚持原创,依然难见起色,甚至连基本的收录都难以保障。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 538
    • 原创
    • 收录