首页 >  SEO >  SEO算法 >  正文

“TF-IDF”算法与网站SEO关系

 作者:潘某人SEO
2092

SEO“TF-IDF”算法的的概念与网站SEO运用

TF-IDF是一种核算方法,用以评价一字词关于一个文件集或一个语料库中的其间一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎运用,作为文件与用户查询之间相关程度的衡量或评级。除了TF-IDF以外,因特网上的搜索引擎还会运用根据链接剖析的评级方法,以确认文件在搜寻效果中出现的次序。


“TF-IDF”算法的原理

TFIDF的思维是:假设某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则以为此词或许短语具有很好的类别差异才干,适宜用来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表明词条在文档d中出现的频率。IDF的首要思维是:假设包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区别能力。

假设某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,明显全部包含t的文档数n=m+k,当m大的时分,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区别能力不强。

可是实际上,假设一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处. 在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以避免它倾向长的文件。(同一个词语在长文件里或许会比短文件有更高的词数,而不管该词语重要与否。)


“TF-IDF”算法的的概念与网站SEO运用

一、TF词频的概念与SEO建议

TF是指词频,查询的关键词在文档中出现的次数核算。相关文档是这样介绍的,假定查询关键词在同一个文档中出现的次数越多,代表这个关键词越重要,越能代表文档的主题意思,文章主题与关键词意思越接近,那么做SEO怎样运用这个知识点呢?

假定有一篇文章的标题是:“SEO服务外包”,从字面上了解,文章首要是以SEO服务为中心,“外包”为拓展词。假定文章内容里SEO服务出现20次,服务出现25次,外包出现10次,按照TF词频的规则,那么SEO服务是文章主题,这个很好理解。

实际上有些时分写文章时,在意思很清晰的情况下,会省掉主词。比如SEO服务外包价格、SEO服务外包流程、SEO服务外包公司介绍,会缩写成:外包价格、外包流程、外包公司介绍。这样会导致外包出现的次数大于服务,TF词频则会以为外包是主题,出现错误的判别。

那既然是这样,做SEO关键词布局的时候,应该要恰当考虑主关键词的出现频率大于副词。当然搜索引擎判别网页主题有许多维度,这儿只是单从TF词频的视点考虑,个人以为这样做会缩短搜索引擎判别网页主题的时间,对SEO来说是有利的。

TF-IDF算法


第二、怎样快速了解“IDF逆文档频率”

这个概念假设看文档的话有点难了解,笔者看百度百科好几次才了解。涉及到杂乱的公式在这儿就不讲,结合TF一起来了解,TF-IDF的意思是,一篇文章中某关键词出现的次数越多,且在搜索引擎的资料库中包含该关键词文档数越少,则说明这个关键词越能代表此网页的主题。

举个比如来说明,假定有一篇文章,有两个关键词:“SEO优化”和“SEO服务”,在文章中,这两个关键词出现的资料都是20次,可是在百度的资料库中,包含SEO优化的文档总共有一千万个,包含SEO服务的文档有五百万个,那么则说明,SEO服务越能代表这文章的意思。或许搜索引擎资料库中包含关键词的文档数量相同,文章中出现次数越多的关键词越能代表网页主题。


从SEO的层面讲,IDF这个值是客观存在的

不必去深究,只需了解不同关键词之间的文档数多少就行,以百度为例,搜索任何一个关键词,在搜索框下面会有一个:“百度为您找到相关效果约XXX个”的这样句子,里边的数值能够作为文档数参阅。每个搜索引擎的包含关键词的文档数或许不相同,可是整体的相对比例值应该是差不多的。并且随着时间的推移,文档数也会不断发作改变。

公众号
潘某人SEO 关注我每天学习SEO优化相关知识... 470篇原创内容
潘某SEO 公众号
申明:以上内容仅代表个人观点,仅供学习参考 本站图片来源于CC0协议或已获得VRF授权的图库站点 本文参考于互联网如有侵权,请联系 pmrseo@foxmail.com删除 本文地址:https://www.chateach.com/seo/seosuanfa/472
相关文章
  • TF-IDF算法、关键词的形成条件

    成为关键词的条件

    说到SEO优化,那么第一次反应就是关键词的排名。很多人对于关键词的认知就是我在TDK中突出的词,或者把一个词在文章中突出重复,提升这个词的密度就可以让搜索引擎认为这个词是这个页面的关键词,然后一个词是否能成为关键词,并不是简单的重复就可以实现的,更多的是参考TF-IDF算法值来确定一个词是否成为关键词。

    1460
    • 成为关键词的条件
  • 百度SEO三大算法

    百度SEO算法

    百度SEO三大算法,HITS算法、百度分词算法、TF-IDF算法,掌握这3大算法可以更好对关键词进行优化,尤其时TF-IDF算法,实际上就是 TF-IDF,TF表示词条在文章中出现的频率。

    1329
    • 百度SEO算法
  • 权威性在百度搜索排名中的作用

    百度搜索,排名,权威性

    对于百度搜索引擎排名有一个非常重要的因素就是站点权威性,相信很多人对于权威性并不是非常的了解,今天我们就从百度搜索中的作用、什么是权威性、如何评估权威性和权威性之官方结果四个方面进行解读。

    862
    • 百度搜索
    • 排名
    • 权威性
  • 网站排名优化贵在长期稳定坚持

    网站排名优化思路

    如果一个网站想要稳定的流量,那么不是靠一朝一夕可以迅速做到的,因此网站排名优化的重点在于长期稳定坚持的输出高质量的内容的,一个量变到质变的过程。

    984
    • 网站排名优化思路
  • 百度冰桶算法,移动页用户体验保护

    百度冰桶算法

    百度一直都在打击移动端用户体验不好的网站,从app的强制下载到现在的广告位置布局,冰桶算法是专门为了移动端体验效果而生的算法,为了提高移动端的用户体验效果

    2093
    • 百度冰桶算法
  • 百度抓取频率高代表什么,如何调整

    抓取频率调整

    百度蜘蛛抓取频次是根据网站的内容量来的,简单的来说,如果网站的内容多那么抓取频次就高;如果网站的内容少,那么百度抓取的频次就低。百度抓取频率高代表什么,如何调整?

    2708
    • 抓取频率调整
  • 如何定制百度索引量查看规则

    百度索引规则

    可以通过“*”号自定义规则来查看某些特征集合的页面索引量数据。“*”号放在规则结尾可匹配到包含“/”在内的任意字符串,放在规则其他位置匹配不包含“/”的任意字符串,具体可参考下列示例:

    1491
    • 百度索引规则
  • SEO真的是免费获取流量吗?

    SEO,免费流量

    ​很多人对于SEO的认知是免费流量,做SEO的目的也是为了获取免费流量。正式因为这种错误的认知,才造就了众多站点的SEO之路通往了失败的大门。SEO的确是属于免费流量的渠道,但是获取过程并非你所认知的低成本。

    270
    • SEO
    • 免费流量
  • 怎么提高网站收录量

    提高收录量

    怎么提高网站收录量?很多人认为靠着定时定量的更新内容可以得到一个稳定的收录。但是我们完全没有必要去定时定量,收录与否与这些因素并没有任何直接关联。我们应该做的是去控制内容的.....

    682
    • 提高收录量
  • 网站排名一直掉,从这几个方面排查

    网站排名一直掉

    无论你的公司规模多大,你在搜索引擎上的一些不恰当的SEO手法,都可能会受到处罚,从而影响你的搜索排名。例如,百度、360搜索甚至会在搜索结果中完全删除你网站的页面。因此,你要避免受到惩罚,避免失去搜索流量。以下是一些简单的SEO方法,可以避免你犯错误,这些错误有可能会让你的排名全无。

    1881
    • 网站排名一直掉
  • 网站建站没有考虑SEO优化的弊端

    网站建站SEO优化

    今天来讨论一个问题先有SEO还是先有网站呢?一个个小小的先后顺序结果却是天壤之别。大多数的情况都是网站先存在,然后觉得需要一个SEO然后就招来一个SEO来优化网站,一般来说这样的网站都是一个巨坑,如果建站的懂一点SEO那么还好,反之那么基本上都是人间悲剧。

    1029
    • 网站建站SEO优化
  • seo页面优化的常用技术

    seo页面优化的

    seo页面优化的常用技术,从核心关键词分析定位、网站目录和页面优化、标签优化技巧、利用好百度搜索资源平台、提高页面的附加价值、访客到客户的转化工作几个角度来讲下SEO页面优化的常用技术。

    1002
    • seo页面优化的
  • AI人工智能生成内容用于SEO优化可行吗?

    AI写作,SEO优化,文心一言

    对于SEO来说最大的难点在于内容的创作,首先在长时间的运营之后,SEO们会发现内容创作思路的匮乏,同时内容的创作会消耗大量的人力,AI人工智能的出现可以很好的解决这个问题,AI写作是否可以运用于SEO优化呢?

    234
    • AI写作
    • SEO优化
    • 文心一言
  • 如何建站才更利于SEO

    seo建站

    网站是内容的载体,网站建设的是否合理对于后期seo优化存在着深远的影响,对于大多数站点基本都会采用cms建站系统,但这样其实还是有一定问题。

    364
    • seo建站
  • 网站SEO过度优化的危害

    SEO过度优化

    过度的SEO优化是很多站点都存在的问题,现在很多站点的SEO优化已经是病态的,一天到晚执着了页面结构、关键词布局、内链、外链、友链以及一些技术手法,而忽视了最关键词的内容的优化

    755
    • SEO过度优化
  • 关键词排名波动原因

    排名波动原因

    理论上讲,关键词的排名决定了网站的流量,定期审查关键词的排名是每个SEO人员的工作,在以往的工作我们可能会遇到这样一种情况:关键词排名频繁波动,很不稳定。​它往往搞的SEOer一头雾水,明明没有过度优化,为什么还会出现这个问题?

    1759
    • 排名波动原因
  • 地方行业网站该如何做好SEO

    地域行业seo

    地方行业网站该如何做好SEO?善于应用带地方名称关键词的密度分布,打造强悍的地方性长尾词群。

    1377
    • 地域行业seo
  • Tag标签页面如何优化?

    Tag标签页面

    你知道什么是tag‘页面吗?什么样的站点适合去tag页面呢?tag页面又叫标签页面,是一种网站内容的分类方式。常见的实现方式是通过给各个页面打上标签,然后以这个标签为主题来聚合相关的页面。

    609
    • Tag标签页面
-- 这已经是底线了,看看别的把! --