首页 >  SEO >  SEO算法 >  正文

TF-IDF算法、关键词的形成条件

2109

说到SEO优化,那么第一次反应就是关键词的排名。很多人对于关键词的认知就是我在TDK中突出的词,或者把一个词在文章中突出重复,提升这个词的密度就可以让搜索引擎认为这个词是这个页面的关键词,然后一个词是否能成为关键词,并不是简单的重复就可以实现的,更多的是参考TF-IDF算法值来确定一个词是否成为关键词。

什么是TF-IDF

TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

上述引用总结就是, 一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章.这也就是TF-IDF的含义.

词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)

但是, 需要注意, 一些通用的词语对于主题并没有太大的作用, 反倒是一些出现频率较少的词才能够表达文章的主题, 所以单纯使用是TF不合适的。权重的设计必须满足:一个词预测主题的能力越强,权重越大,反之,权重越小。所有统计的文章中,一些词只是在其中很少几篇文章中出现,那么这样的词对文章的主题的作用很大,这些词的权重应该设计的较大。IDF就是在完成这样的工作.


关键词的生成

TF-IDF算法计算公式


  1. TF计算公式

TF计算公式

逆向文件频率 (inverse document frequency, IDF) IDF的主要思想是:如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

 

2.IDF计算公式

IDF计算公式

某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

 

3.TF-IDF算法计算公式

TF−IDF=TF∗IDF

TF-IDF值越大,则这个词成为一个关键词的概率就越大。


TF-IDF算法实例

以《亚洲的网络技术》为例,假定该文长度为1000个词,"亚洲"、"网络"、"技术"各出现20次,则这三个词的"词频"(TF)都为0.02。 然后,搜索Google发现,包含"的"字的网页共有250亿张(假定这就是中文网页总数),包含"亚洲"的网页共有62.3亿张,包含"网络"的网页为0.484亿张,包含"技术"的网页为0.973亿张。则它们的逆文档频率(IDF)和TF-IDF的计算结果如下:

TF-IDF算法实例

从上表可见,"网络"的TF-IDF值最高,"技术"其次,"亚洲"最低。(如果还计算"的"字的TF-IDF,那将是一个极其接近0的值。)所以,如果只选择一个词,"网络"就是这篇文章的关键词。 除了自动提取关键词,TF-IDF算法还可以用于许多别的地方。比如,信息检索时,对于每个文档,都可以分别计算一组搜索词("亚洲"、"网络"、"技术")的TF-IDF,将它们相加,就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档。 TF-IDF算法的优点是简单快速,结果比较符合实际情况。缺点是,单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。)


TF-IDF算法不足

TF-IDF 算法会倾向于选出某一特定文档内的高频词语,同时该词语在整个文档集合中分布是比较集中的。因此,TF-IDF算法倾向于过滤掉常见的词语,保留“独有”词语。但是这也造成了TF-IDF算法的缺陷。 因为IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,idf越大,则说明词条t 具有很好的类别区分能力。如果某一文档C中包含词条t的文档数为m, 而其他类包含t的文档总数为k,显然所有包含t的文档数n = m + k, 当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t 类别区分能力不强。但实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好地代表这个类的文本特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词,以区别于其他类的文档。


比如对于如下几个短文本:

1、鲜花多少钱?

2、白百合多少钱?

3、月季多少钱?

4、香蕉多少钱?


如果按照TF-IDF算法,鲜花、香蕉这些主体词会成为关键词,但是从这些语句的总体来看,他们又都属于询问价格的类型,所以“多少钱”应该成为关键词。这就是IDF的不足之处。

改进的方法可以通过改变文档结构,比如将上述短文本归并为一个文档,这样就可以在增加TF值的同时,也增加IDF值。但是这样就会增加模型的计算成本,需要大量的人为经验加入其中。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seosuanfa/382
相关文章
  • 百度收录速度与网站权重的关系

    权重与收录速度

    百度收录速度与网站权重的关系?网站权重越高是不是收录速度就越快,是不是只要网站权重足够高网站内容就可以做到秒收录呢?对于新站来说低权重站点是不是就无法做到内容的快速收录呢?

    1207
    • 权重与收录速度
  • HITS算法链接分析算法

    链接分析算法

    HITS算法链接分析算法,用户输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores),这两种值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。

    2030
    • 链接分析算法
  • 搜索引擎网页质量判定的标准

    搜索引擎,网页质量

    搜索引擎的根本是什么,是内容是对于用户搜索需求满足,这是搜索引擎最根本的逻辑,后续的一切也都是根据这个方向展开的。根据《百度搜索引擎网页质量白皮书》,站长们在百度搜索引擎优化中如何才能输出高质量内容呢?

    667
    • 搜索引擎
    • 网页质量
  • 如何禁止百度建立页面快照

    屏蔽快照

    很多站点出于隐私的考虑不希望百度保留快照,网上也在讨论如何禁止百度保留快照的方法。其实百度早已对此有过说明,但藏在一篇不起眼的文章中不引人注目,导致依然非常多的人不清楚该如何操作。

    1454
    • 屏蔽快照
  • SEO优化失败的原因

    SEO优化失败的原因

    SEO优化失败的原因解析,对于SEO优化来说到底是内容重要还是代码优化重要,最终又是什么导致了网站优化失败的结局,如何避免失败?

    1540
    • SEO优化失败的原因
  • 下载站注意,清风算法4.0来了

    清风算法4.0,SEO算法,下载站

    如果你的站点是下载站,那么请一定进来看下百度清风算法4.0版本,2021-09-02百度搜索资源平台发布公告对清风算法进行升级,进入了4.0版本。本次清风算法升级加大了针对不符合规范的低质下载站,将限制其在百度搜索结果中的展现。

    1381
    • 清风算法4.0
    • SEO算法
    • 下载站
  • 答应我以后别这么设计网址路径,迟早会后悔!

    网址路径

    今天有人跟我痛诉网站几千的内容,全部被爬走了,一个不剩的那种,如何才能避免这种悲剧的发生呢?很多人的站点都会有这个问题,并且我见过的很多企业站点都有这个通病。

    189
    • 网址路径
  • 有效索引与关键词排名的关系

    收录排名,有效索引

    大多是人都知道索引这个词,但是不知道什么是有效索引,页面的排名取决于能不能进入有效索引库以及处在什么位置。

    2087
    • 收录排名
    • 有效索引
  • 如何使用Canonical标签解决重复页

    Canonical标签

    Canonical标签用于告知搜索引擎,重复页面中哪个页面是规范页,有利于集中权重提升排名,但是总体来说Canonical标签能不用!就不用了

    1945
    • Canonical标签
  • 为什么搜索结果和点进去看的内容不一样

    User-Agent,搜索引擎

    有时候会遇到这种情况,在搜索引擎上找到了需要的内容,但是点击进去网站之后,发现和搜索引擎中的检索结果无关,甚至有的页面连主题都不相关。为什么会有这种情况出现呢?

    1765
    • User-Agent
    • 搜索引擎
  • 网站改版301跳转,你踩坑了吗?

    301跳转,重定向,网站改版

    当网站改版时,新旧页面的链接地址或者是网站域名发生变化时,就需要在对应的搜索引擎提交网站改版规则,然后在做301跳转,这是网站的常规操作,相信大多数都知道,但是你真的觉得这么简单吗?

    706
    • 301跳转
    • 重定向
    • 网站改版
  • 如何建站才更利于SEO

    seo建站

    网站是内容的载体,网站建设的是否合理对于后期seo优化存在着深远的影响,对于大多数站点基本都会采用cms建站系统,但这样其实还是有一定问题。

    842
    • seo建站
  • 友情链接交换规则

    友情链接

    友情链接本质上就是外链,但是与外链不同它是双向的,两站点互相导出;那么在友情链接交换中我们需要注意什么呢?

    1244
    • 友情链接
  • 交换链接的作弊手段

    友链作弊方法

    交换链接的作弊手段有哪些,如果你不知道这些作弊方式,那么你可能一直在蒙在鼓里被人占便宜。上链后删除、使用JS代码调用的友情链接、链接使用Nofollow标签、使用假的页面等都是常见的友链的作弊方法。

    1427
    • 友链作弊方法
  • SEO外包靠谱吗?

    SEO外包

    SEO外包靠谱吗?你会选择外包吗?你觉得会有效果吗?为什么大多数站点SEO优化最终失败了?

    770
    • SEO外包
  • 如何选择合适的编程语言构建SEO友好的网站

    编程语言,SEO友好

    决定搜索引擎优化(SEO)优化的最终结果的因素很多,网站的编程语言可以算作是重要的因素之一,并且编程语言的选择是网站的开端,并且后期更改的代价是非常大的,因此选择正确的编程语言对于SEO优化是非常的重要的。

    672
    • 编程语言
    • SEO友好
  • SEO从业者必须掌握的TDK优化技巧

    SEO关键词,TDK编写,网站描述优化

    SEO从业者需要知道网站TDK是什么,需要知道SEO改如何编写关键词标题描述,现在对于搜索引擎来说关键词和描述并不是很重要了,这么调整原因就是太多了的人乱写关键词,文章与关键词相关性低;不过如果你的关

    2005
    • SEO关键词
    • TDK编写
    • 网站描述优化
  • 如何找到有效的关键词?

    有效关键词

    如何找到有效的关键词? 关键词对电商卖家来说,非常重要。它能给listing带来流量,帮助刺激销量。那么,如何寻找合适的关键词呢?

    1347
    • 有效关键词
-- 这已经是底线了,看看别的把! --