首页 >  SEO >  SEO算法 >  正文

TF-IDF算法、关键词的形成条件

 作者:潘某人SEO
1460

说到SEO优化,那么第一次反应就是关键词的排名。很多人对于关键词的认知就是我在TDK中突出的词,或者把一个词在文章中突出重复,提升这个词的密度就可以让搜索引擎认为这个词是这个页面的关键词,然后一个词是否能成为关键词,并不是简单的重复就可以实现的,更多的是参考TF-IDF算法值来确定一个词是否成为关键词。

什么是TF-IDF

TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

上述引用总结就是, 一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章.这也就是TF-IDF的含义.

词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)

但是, 需要注意, 一些通用的词语对于主题并没有太大的作用, 反倒是一些出现频率较少的词才能够表达文章的主题, 所以单纯使用是TF不合适的。权重的设计必须满足:一个词预测主题的能力越强,权重越大,反之,权重越小。所有统计的文章中,一些词只是在其中很少几篇文章中出现,那么这样的词对文章的主题的作用很大,这些词的权重应该设计的较大。IDF就是在完成这样的工作.


关键词的生成

TF-IDF算法计算公式


  1. TF计算公式

TF计算公式

逆向文件频率 (inverse document frequency, IDF) IDF的主要思想是:如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

 

2.IDF计算公式

IDF计算公式

某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

 

3.TF-IDF算法计算公式

TF−IDF=TF∗IDF

TF-IDF值越大,则这个词成为一个关键词的概率就越大。


TF-IDF算法实例

以《亚洲的网络技术》为例,假定该文长度为1000个词,"亚洲"、"网络"、"技术"各出现20次,则这三个词的"词频"(TF)都为0.02。 然后,搜索Google发现,包含"的"字的网页共有250亿张(假定这就是中文网页总数),包含"亚洲"的网页共有62.3亿张,包含"网络"的网页为0.484亿张,包含"技术"的网页为0.973亿张。则它们的逆文档频率(IDF)和TF-IDF的计算结果如下:

TF-IDF算法实例

从上表可见,"网络"的TF-IDF值最高,"技术"其次,"亚洲"最低。(如果还计算"的"字的TF-IDF,那将是一个极其接近0的值。)所以,如果只选择一个词,"网络"就是这篇文章的关键词。 除了自动提取关键词,TF-IDF算法还可以用于许多别的地方。比如,信息检索时,对于每个文档,都可以分别计算一组搜索词("亚洲"、"网络"、"技术")的TF-IDF,将它们相加,就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档。 TF-IDF算法的优点是简单快速,结果比较符合实际情况。缺点是,单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。)


TF-IDF算法不足

TF-IDF 算法会倾向于选出某一特定文档内的高频词语,同时该词语在整个文档集合中分布是比较集中的。因此,TF-IDF算法倾向于过滤掉常见的词语,保留“独有”词语。但是这也造成了TF-IDF算法的缺陷。 因为IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,idf越大,则说明词条t 具有很好的类别区分能力。如果某一文档C中包含词条t的文档数为m, 而其他类包含t的文档总数为k,显然所有包含t的文档数n = m + k, 当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t 类别区分能力不强。但实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好地代表这个类的文本特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词,以区别于其他类的文档。


比如对于如下几个短文本:

1、鲜花多少钱?

2、白百合多少钱?

3、月季多少钱?

4、香蕉多少钱?


如果按照TF-IDF算法,鲜花、香蕉这些主体词会成为关键词,但是从这些语句的总体来看,他们又都属于询问价格的类型,所以“多少钱”应该成为关键词。这就是IDF的不足之处。

改进的方法可以通过改变文档结构,比如将上述短文本归并为一个文档,这样就可以在增加TF值的同时,也增加IDF值。但是这样就会增加模型的计算成本,需要大量的人为经验加入其中。

公众号
潘某人SEO 关注我每天学习SEO优化相关知识... 470篇原创内容
潘某SEO 公众号
申明:以上内容仅代表个人观点,仅供学习参考 本站图片来源于CC0协议或已获得VRF授权的图库站点 本文参考于互联网如有侵权,请联系 pmrseo@foxmail.com删除 本文地址:https://www.chateach.com/seo/seosuanfa/382
相关文章
  • 新站被快速收录的秘诀

    新站快速收录的方法

    新站被快速收录的秘诀,如何让新站快速的收录。如果你能做到下面这些,你的网站就可能在12个小时内被收录。

    937
    • 新站快速收录的方法
  • 手机移动端该怎么优化?

    手机移动端优化

    手机移动端该怎么优化?移动互联网的推出,各位站长也纷纷的挤入了移动化网站,移动网站可以说是一个比一个做的漂亮,那么既然做了移动化的网站,那少不了的自然是SEO优化,在PC端上你的网站可能在某个词上有排名,但在移动搜索引擎上,未必你会优先排名展现。

    867
    • 手机移动端优化
  • 百度几种链接推送方式对比

    百度链接推送

    网站内容如果想要实现快速收录,那么及时的提交新内容链接是直接有效的方法。对于百度搜索来说链接提交方式是比较丰富的,大致分类主动提交、自动提交、手动提交和sitemap提交,那么你知道这四种提交方式有什么区别呢?哪张方式可以更快使内容收录呢?

    1321
    • 百度链接推送
  • SEO内容优化劣迹行为你有吗

    SEO内容优化

    不管你的站点是否需要SEO优化,都需要的是优质的内容,得用户者得流量。而在实际的运行中却十分不理想,普遍的存在着垃圾制造的行为。

    469
    • SEO内容优化
  • 搜索引擎高级搜索指令大全

    高级搜索指令大全

    搜索引擎高级搜索指令大全。普通的搜索肯定需要会,但是有一些特殊的搜索是SEO必修课程。下面就来介绍一下搜索引擎的特殊搜索——高级搜索指令。

    1210
    • 高级搜索指令大全
  • TrustRank域名信任度

    TrustRank域名信任度

    TrustRank域名信任度?由于搜索引擎在计算网页排名的时候,非常依赖连接,而且连接的质量越来越显得重要。由于搜索引擎在计算网页排名的时候,非常依赖连接,而且连接的质量越来越显得重要。在这种情况下,需要对连接的来源站点质量进行判断。更重要的是,以前依靠连接和相关性来决定排名的方式,

    1566
    • TrustRank域名信任度
  • 排名优化中所说的指数和搜索量有什么关系

    搜索指数,百度指数

    百度搜索指数代表着什么,网站的权重数值是通过关键词的搜索指数得到预估流量来的,但是知道百度指数的计算方式,我们就可以知道所得到的权重并不准确只能当作是参考

    1072
    • 搜索指数
    • 百度指数
  • 百度天网算法,用户隐私保护

    百度天网算法,用户隐私保护

    百度天网算法打击恶意盗取网民的QQ号、手机号进行营销推广的行为。打击这种严重侵犯用户隐私的行为的站点。

    998
    • 百度天网算法
    • 用户隐私保护
  • 网站使用CDN会对SEO有什么好处

    CDN,SEO优化

    CDN 是构建在数据网络上的一种分布式的内容分发网,网站使用CDN会对SEO有什么好处,如何正确的使用cdn才能发挥对于seo优化的作用。

    615
    • CDN
    • SEO优化
  • 索引量下降的原因

    百度索引量

    百度索引量下降的原因,站长们应该如何正确的看待索引的增长呢?站长们乐此不疲的追求高索引量,会不会是站长们太把它当一回事了。今天就来谈谈索引量那边事我们如何正确的看待索引量。

    740
    • 百度索引量
  • TDK标签优化的技巧

    TDK标签,TDK优化

    什么是TDK,网站关键词、标签、描述还重要吗?TDK该怎么写呢?

    809
    • TDK标签
    • TDK优化
  • 有效索引与关键词排名的关系

    收录排名,有效索引

    大多是人都知道索引这个词,但是不知道什么是有效索引,页面的排名取决于能不能进入有效索引库以及处在什么位置。

    1619
    • 收录排名
    • 有效索引
  • 网站ICP备案对于SEO优化的影响

    ICP备案,SEO优化

    网站ICP备案对于SEO优化的影响。先说结论,如果你的优化重点是国内的搜索引擎,那么网站ICP备案至关重要。很多年前网站备案对于SEO优化影响度很低,但是近几年已经完全不一样。

    224
    • ICP备案
    • SEO优化
  • 如何安全增加关键词密度

    关键词密度

    那么在当今的算法下不能堆砌关键词,那么如何提升关键词的排名呢?不管算法怎么更新,关键词密度还是永远不变的本质,我们需要的是采用正确的方法提升关键词密度。

    860
    • 关键词密度
  • 如何防止网站被黑

    防止网站被黑.防火墙配置,出入站规则

    合理的配置服务器防火墙的出入站规则,可以有效的屏蔽恶意访问,从而提升网站的安全性防止网站被黑,望着那别攻击很有可能优化规则前功尽弃。

    586
    • 防止网站被黑.防火墙配置
    • 出入站规则
  • 域名更换,如何降低对排名权重的影响

    域名变更对于SEO的影响

    网站的域名变更,对于网站优化来说是一件需要非常谨慎对待的,就算你知道怎么操作,但是有着无数的坑等着你,分享几个常见的问题在域名变更的时候会对网站权重流量有着致命打击的注意点......

    2078
    • 域名变更对于SEO的影响
  • 百度收录速度与网站权重的关系

    权重与收录速度

    百度收录速度与网站权重的关系?网站权重越高是不是收录速度就越快,是不是只要网站权重足够高网站内容就可以做到秒收录呢?对于新站来说低权重站点是不是就无法做到内容的快速收录呢?

    776
    • 权重与收录速度
  • SEO如何正确的进行工作交流沟通

    SEO,工作交流,沟通

    今天这个话题就非常的有意思,不管是不是从事SEO都可以看一下,和每个人息息相关,就是在工作中如何正确的进行交流。大家觉得交流沟通的重点是什么?我说是解决问题大家没有意见吧!交流沟通最终的目的必然是解决问题。但是在现实中,大部分的交流沟通是没有结果的。

    214
    • SEO
    • 工作交流
    • 沟通
-- 这已经是底线了,看看别的把! --