首页 >  SEO >  SEO算法 >  正文

“TF-IDF”算法与网站SEO关系

2591

SEO“TF-IDF”算法的的概念与网站SEO运用

TF-IDF是一种核算方法,用以评价一字词关于一个文件集或一个语料库中的其间一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎运用,作为文件与用户查询之间相关程度的衡量或评级。除了TF-IDF以外,因特网上的搜索引擎还会运用根据链接剖析的评级方法,以确认文件在搜寻效果中出现的次序。


“TF-IDF”算法的原理

TFIDF的思维是:假设某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则以为此词或许短语具有很好的类别差异才干,适宜用来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表明词条在文档d中出现的频率。IDF的首要思维是:假设包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区别能力。

假设某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,明显全部包含t的文档数n=m+k,当m大的时分,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区别能力不强。

可是实际上,假设一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处. 在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以避免它倾向长的文件。(同一个词语在长文件里或许会比短文件有更高的词数,而不管该词语重要与否。)


“TF-IDF”算法的的概念与网站SEO运用

一、TF词频的概念与SEO建议

TF是指词频,查询的关键词在文档中出现的次数核算。相关文档是这样介绍的,假定查询关键词在同一个文档中出现的次数越多,代表这个关键词越重要,越能代表文档的主题意思,文章主题与关键词意思越接近,那么做SEO怎样运用这个知识点呢?

假定有一篇文章的标题是:“SEO服务外包”,从字面上了解,文章首要是以SEO服务为中心,“外包”为拓展词。假定文章内容里SEO服务出现20次,服务出现25次,外包出现10次,按照TF词频的规则,那么SEO服务是文章主题,这个很好理解。

实际上有些时分写文章时,在意思很清晰的情况下,会省掉主词。比如SEO服务外包价格、SEO服务外包流程、SEO服务外包公司介绍,会缩写成:外包价格、外包流程、外包公司介绍。这样会导致外包出现的次数大于服务,TF词频则会以为外包是主题,出现错误的判别。

那既然是这样,做SEO关键词布局的时候,应该要恰当考虑主关键词的出现频率大于副词。当然搜索引擎判别网页主题有许多维度,这儿只是单从TF词频的视点考虑,个人以为这样做会缩短搜索引擎判别网页主题的时间,对SEO来说是有利的。

TF-IDF算法


第二、怎样快速了解“IDF逆文档频率”

这个概念假设看文档的话有点难了解,笔者看百度百科好几次才了解。涉及到杂乱的公式在这儿就不讲,结合TF一起来了解,TF-IDF的意思是,一篇文章中某关键词出现的次数越多,且在搜索引擎的资料库中包含该关键词文档数越少,则说明这个关键词越能代表此网页的主题。

举个比如来说明,假定有一篇文章,有两个关键词:“SEO优化”和“SEO服务”,在文章中,这两个关键词出现的资料都是20次,可是在百度的资料库中,包含SEO优化的文档总共有一千万个,包含SEO服务的文档有五百万个,那么则说明,SEO服务越能代表这文章的意思。或许搜索引擎资料库中包含关键词的文档数量相同,文章中出现次数越多的关键词越能代表网页主题。


从SEO的层面讲,IDF这个值是客观存在的

不必去深究,只需了解不同关键词之间的文档数多少就行,以百度为例,搜索任何一个关键词,在搜索框下面会有一个:“百度为您找到相关效果约XXX个”的这样句子,里边的数值能够作为文档数参阅。每个搜索引擎的包含关键词的文档数或许不相同,可是整体的相对比例值应该是差不多的。并且随着时间的推移,文档数也会不断发作改变。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seosuanfa/472
相关文章
  • TF-IDF算法、关键词的形成条件

    成为关键词的条件

    说到SEO优化,那么第一次反应就是关键词的排名。很多人对于关键词的认知就是我在TDK中突出的词,或者把一个词在文章中突出重复,提升这个词的密度就可以让搜索引擎认为这个词是这个页面的关键词,然后一个词是否能成为关键词,并不是简单的重复就可以实现的,更多的是参考TF-IDF算法值来确定一个词是否成为关键词。

    2164
    • 成为关键词的条件
  • 百度SEO三大算法

    百度SEO算法

    百度SEO三大算法,HITS算法、百度分词算法、TF-IDF算法,掌握这3大算法可以更好对关键词进行优化,尤其时TF-IDF算法,实际上就是 TF-IDF,TF表示词条在文章中出现的频率。

    1860
    • 百度SEO算法
  • 做SEO前必须知道的那些事

    SEO优化

    入SEO者常有,而有效果者不常有,想要做好SEO获得效果,那么在做SEO前必须知道的这些事。在这个内卷的时代,广告费用节节攀升的情景下;再加上这些年来SEM付费广告的出现的一些负面事件,导致越来越多的人对搜索引擎的付费广告比较反感;这使得SEO的价值还在不断地提升。

    308
    • SEO优化
  • 如何防止网站内容被复制

    防止复制,js

    通过js修改document上的相关属性值来实,防止网站内容被复制。

    1169
    • 防止复制
    • js
  • 如何建站才更利于SEO

    seo建站

    网站是内容的载体,网站建设的是否合理对于后期seo优化存在着深远的影响,对于大多数站点基本都会采用cms建站系统,但这样其实还是有一定问题。

    897
    • seo建站
  • 移动端网站优化步骤是什么

    移动优化方法

    目前国内手机用户已经突破了10亿,并且手机上网已经替代电脑设备成为了主流的上网搜索方式,正因为移动搜索市场的越来越庞大,也就不得不使得越来越多的站点也开始关注其移动端的SEO优化问题,那么移动的SEO优化大致是一个什么样的步骤呢,和PC端有什么不同之处呢?

    1240
    • 移动优化方法
  • nginx网站域名重定向怎么做

    nginx重定向,网站域名重定向

    网站上线最基础的一步就是确立域名如何重定向,如果最优的设置重定向。一方面要确立网站主域,另一方面跳转配置不遗漏并且尽可能减少没必要的跳转。

    1044
    • nginx重定向
    • 网站域名重定向
  • SEO内部链接优化

    SEO优化,内链优化

    在研究网站内链前,首先先要知道内链的种类有哪些,哪些位置会出现内链,各个位置的内链又有什么区别呢?内链对于SEO优化起到了什么作用。

    1038
    • SEO优化
    • 内链优化
  • 如何查看sitemap文件提交配额

    sitemap提交配额

    为了提升站点提交的优质资源的处理效率,搜索资源平台对平台工具的sitemap文件提交配额进行限制,包括“资源提交-普通收录-sitemap提交”、“链接提交-死链提交”。平台将基于站点资源质量和搜索用户喜欢程度综合评估计算站点提交配额,站点不同,提交配额也可能不同。

    945
    • sitemap提交配额
  • 索引量波动意味着什么?需要重视吗?

    索引量,流量,seo

    索引量的波动牵动了多少站长心,根据不可靠研究,据说索引量波动得足够猛,可以影响到站长们的心电图。尤其突然的下降,一次性掉了大半年积累到的索引量。那么遇到索引量大幅度波动对于站点意味着什么呢?

    685
    • 索引量
    • 流量
    • seo
  • 新站排名不稳定的原因

    新站排名不稳定

    新站排名不稳定的原因,新站排名不稳定最基础的原因有两个,一是搜索引擎更新算法引起的影响,其实搜索引擎更新算法,不仅影响新站,老站也会被波及到。二是,新站本身权重都很低,搜索引擎对新站有一个观察前,前期信任度低。

    1948
    • 新站排名不稳定
  • 修改网站标题对排名有影响吗

    修改标题,排名影响

    修改网站的关键词标题等会影响网站的排名吗,网上大多数的说法是站点的关键词标题不能够轻易修改,对于网站的排名影响很大,但是真相并非如此......

    1878
    • 修改标题
    • 排名影响
  • 百度下拉框是什么

    百度下拉框,下拉词

    什么是百度下拉框,不管站点做不做SEO优化,是否在意自然流量。凡是下拉词是大家都需要关键词的,不仅仅是简单的SEO层面

    1113
    • 百度下拉框
    • 下拉词
  • 移动端适配的几种实现方式

    移动端适配

    移动端适配的几种实现方式,rem布局、flex布局、百分比布局、字体适配、vm布局。纯CSS的相对单位vw,vh,它们相对的是终端视口,视口(移动端你就可以当成屏幕就好啦)的宽为100vw,高为100vh。使用起来很简单

    14322
    • 移动端适配
  • 求职避雷指南:连SSL证书都要省的公司,你敢去吗?

    SSL证书,求职

    今天这篇文章不仅仅适用于SEO优化从业者,同时也适用于其他岗位的求职者,那你从此刻起,多了一个更加靠谱的方法判断公司是否靠谱。

    145
    • SSL证书
    • 求职
  • 百度资源平台VIP俱乐开放申请加入

    百度VIP俱乐

    百度搜索资源平台VIP俱乐部由原有的“以用户规模为核心的定向邀请制”升级为更贴近用户以及搜索需求的“以内容优质/领域权威等为核心的开放申请制”,为更多站点开放申请机会,助力优质资源脱颖而出。

    963
    • 百度VIP俱乐
  • SEO网站内容一直不收录原因及解决方案

    不收录原因,SEO

    ​不收录原因及解决方案,自从2022年开始普遍可以感受到网站收录难、收录周期长。可以说让众多SEO从业者游走在失业的边缘。影响网站收录的原因很多,比如站点违规降权等因素,但是对于大多数的站点更多的还是由于内容的问题导致的收录问题。

    2699
    • 不收录原因
    • SEO
  • 网站页面加载速度优化指南

    网站加载速度,首屏加载,seo

    网页css和js如何处理才能让网站加载速度更快,页面的首屏内容应在1秒内加载完成,这样才能拥有一个良好的用户体验。

    1193
    • 网站加载速度
    • 首屏加载
    • seo
-- 这已经是底线了,看看别的把! --