TF-IDF算法、关键词的形成条件

说到SEO优化,那么第一次反应就是关键词的排名。很多人对于关键词的认知就是我在TDK中突出的词,或者把一个词在文章中突出重复,提升这个词的密度就可以让搜索引擎认为这个词是这个页面的关键词,然后一个词是否能成为关键词,并不是简单的重复就可以实现的,更多的是参考TF-IDF算法值来确定一个词是否成为关键词。

什么是TF-IDF

TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

上述引用总结就是, 一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章.这也就是TF-IDF的含义.

词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)

但是, 需要注意, 一些通用的词语对于主题并没有太大的作用, 反倒是一些出现频率较少的词才能够表达文章的主题, 所以单纯使用是TF不合适的。权重的设计必须满足:一个词预测主题的能力越强,权重越大,反之,权重越小。所有统计的文章中,一些词只是在其中很少几篇文章中出现,那么这样的词对文章的主题的作用很大,这些词的权重应该设计的较大。IDF就是在完成这样的工作.


关键词的生成

TF-IDF算法计算公式


  1. TF计算公式

TF计算公式

逆向文件频率 (inverse document frequency, IDF) IDF的主要思想是:如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

 

2.IDF计算公式

IDF计算公式

某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

 

3.TF-IDF算法计算公式

TF−IDF=TF∗IDF

TF-IDF值越大,则这个词成为一个关键词的概率就越大。


TF-IDF算法实例

以《亚洲的网络技术》为例,假定该文长度为1000个词,"亚洲"、"网络"、"技术"各出现20次,则这三个词的"词频"(TF)都为0.02。 然后,搜索Google发现,包含"的"字的网页共有250亿张(假定这就是中文网页总数),包含"亚洲"的网页共有62.3亿张,包含"网络"的网页为0.484亿张,包含"技术"的网页为0.973亿张。则它们的逆文档频率(IDF)和TF-IDF的计算结果如下:

TF-IDF算法实例

从上表可见,"网络"的TF-IDF值最高,"技术"其次,"亚洲"最低。(如果还计算"的"字的TF-IDF,那将是一个极其接近0的值。)所以,如果只选择一个词,"网络"就是这篇文章的关键词。 除了自动提取关键词,TF-IDF算法还可以用于许多别的地方。比如,信息检索时,对于每个文档,都可以分别计算一组搜索词("亚洲"、"网络"、"技术")的TF-IDF,将它们相加,就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档。 TF-IDF算法的优点是简单快速,结果比较符合实际情况。缺点是,单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。)


TF-IDF算法不足

TF-IDF 算法会倾向于选出某一特定文档内的高频词语,同时该词语在整个文档集合中分布是比较集中的。因此,TF-IDF算法倾向于过滤掉常见的词语,保留“独有”词语。但是这也造成了TF-IDF算法的缺陷。 因为IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,idf越大,则说明词条t 具有很好的类别区分能力。如果某一文档C中包含词条t的文档数为m, 而其他类包含t的文档总数为k,显然所有包含t的文档数n = m + k, 当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t 类别区分能力不强。但实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好地代表这个类的文本特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词,以区别于其他类的文档。


比如对于如下几个短文本:

1、鲜花多少钱?

2、白百合多少钱?

3、月季多少钱?

4、香蕉多少钱?


如果按照TF-IDF算法,鲜花、香蕉这些主体词会成为关键词,但是从这些语句的总体来看,他们又都属于询问价格的类型,所以“多少钱”应该成为关键词。这就是IDF的不足之处。

改进的方法可以通过改变文档结构,比如将上述短文本归并为一个文档,这样就可以在增加TF值的同时,也增加IDF值。但是这样就会增加模型的计算成本,需要大量的人为经验加入其中。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seosuanfa/382

相关文章

  • 关键词难易度评估方法

    关键词难度评估

    选好关键词是SEO优化的关键因素,关键词的质量可以决定搜索量、排名、以及转化等。关键词是网站和搜索引擎和用户三者衔接的桥梁。关键词的选择充满了奥秘,简单的讲我们需要考虑这个关键词的搜索量毕竟没有流量的关键词排名再高也没用,其次关键词的排名对于自己站点的难易程度,以及最关键的流量以及转化的平衡点的把握。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1166
    • 关键词难度评估
  • SEO必看,搜索引擎是如何提取关键词?

    关键词,搜索引擎

    了解搜索引擎是如何提取关键词,是每个SEO必须必须知道的,否则很容易一不小心优化了个寂寞。如果你认为关键词就是自己在页面keywords中设置的关键词,或者只要重复某个词就可以成为关键词,那你一定要听劝看完这篇文章。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1741
    • 关键词
    • 搜索引擎
  • 百度统计事件跟踪怎么添加

    百度统计事件跟踪,_trackEvent

    百度统计事件跟踪_trackEvent怎么添加使用,以一个页面点击的追踪统计作为一个例子。来演示下如何部署使用百度统计的事件分析js-api接口。学会合理利用事件分析功能,会对数据统计的灵活度有很大的提升,不仅对于SEO优化,网站的转化优化都可以提供强有力的支持。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2569
    • 百度统计事件跟踪
    • _trackEvent
  • 内容防抓取原创保护的方法

    原创保护,防抓取,防采集

    ​站点的内容经常被恶意采集爬取,辛辛苦苦码的原创内容被人轻而易举的强取豪夺,被采集可以说是另站长们最痛疼的事情之一了,今天潘某人SEO就与大家分享若干方法,期望可以对大家有帮助。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1097
    • 原创保护
    • 防抓取
    • 防采集
  • SEO站外优化的方法有哪些?

    seo站外优化

    SEO站外优化的方法有哪些?一个网站如果有比较好的内容,但是客户还是无法看到的话,那么就说明SEO优化没有达到理想的效果。我们做网站首先就是要让用户能够看到,这样才能带来更多的流量,最终实现建设网站的目的就是起到推广或者是营销的效果。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1501
    • seo站外优化
  • 百度下拉框是什么

    百度下拉框,下拉词

    什么是百度下拉框,不管站点做不做SEO优化,是否在意自然流量。凡是下拉词是大家都需要关键词的,不仅仅是简单的SEO层面

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1371
    • 百度下拉框
    • 下拉词
  • 如何精准选择高质量友链

    友链

    在互联网的世界里,链接就是通往各个角落的桥梁。特别是友情链接,作为双向导出的外链形式,它对网站的影响远超你的想象。然而,如何进行有效的友情链接交换,避免对自身网站造成不利影响呢?今天,潘某人SEO就来和大家探讨一下友情链接交换的那些事儿。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 592
    • 友链
  • seo需要掌握的技术技能

    seo需要掌握的技术

    从事SEO工作的人员,个人能力不尽相同。有的可能是程序员转行过来,更多的更像是编辑人员。对于SEO优化来说最终的成功更取决于对于网站内容布局的长期规划,并不是说懂点技术,或者会写点文章就可以把SEO做的很好。那么对于SEO 来说我们需要掌握哪些技能呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1214
    • seo需要掌握的技术
  • 同一台服务器多个网站会影响SEO吗?

    服务器多个网站

    对小型站点使用独立服务器的成本会有点高,尤其是网站前期流量不大的时候,使用虚拟服务器就足够应付了。同一个服务器部署很多站点,是否回被判断为群站被惩罚,导致SEO优化效果不佳呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1077
    • 服务器多个网站
  • 收录数量和权重关系

    收录数量和权重关系

    收录数量和权重有什么关系呢,收录的数量越多是不是权重就越高,站点就有更大的流量呢?相信收录量是很多站点奋斗的目标,想方设法的去快速的增加大量的收录,但是最终并没有很好的效果,这是为什么呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1472
    • 收录数量和权重关系
  • 一个简单的操作让你的网站安全立马上一个级别

    网站安全,防火墙

    对于SEO来说,网站安全是极为重要,因为网站被黑导致内容被串改成黑产,被搜索引擎降权K站的比比皆是,今天潘某人SEO教大家一个简单的操作就可以把网站的安全提升一个级别。快速检查下自己站点是否正确设置了,虽然不是万无一失,但还是非常有用的。平时还是应该定期排查,及时打补丁,免得追悔莫及!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 5307
    • 网站安全
    • 防火墙
  • SEO关键词挖掘的秘密:别再只盯着搜索引擎,聪明的优化者早已布局全网!

    关键词挖掘

    在做SEO优化时,很多人把大量时间花在关键词挖掘上,但结果却不尽如人意。其实,关键词挖掘不仅仅是“找词”这么简单,它更像是一场对用户需求、平台特性和内容价值的深度探索。今天潘某人SEO就来聊聊如何真正高效地进行关键词挖掘,跳出传统思维的局限,让你的网站流量实现质的飞跃!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 719
    • 关键词挖掘
  • 网站排名优化seo学习心得

    seo学习心得

    近几年网络推广的费用成本直线上升,正是因为如何免费的SEO优化更加的得到青睐,可以有效的降低推广成本,因此对于SEO优化这块的专业人士的需求还是很大的,SEO优化作为在学校之后没有设立任何教学的领域,更多的依靠社会人士的自学来创造出相关的专业人士。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1437
    • seo学习心得
  • 为什么打击采集行为,采集站还是有很高权重

    采集,权重

    搜索引擎不断的打击采集行为,但是采集站点的收录排名和权重还是非常好;如果你无法理解那么你对于搜索引擎的核心不够了解,本文带你探索搜索引擎和采集的那点事,教你如果正确面对采集行为。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1243
    • 采集
    • 权重
  • 百度搜索无法提交链接怎么解决?

    百度搜索,seo,链接提交

    近期大家应该发现了百度搜索资源平台的大多数的站点api提交额度基本都将为的10条,并且无法提交sitemap,为什么会出现这种情况,又应该如何解决链接提交的问题呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2252
    • 百度搜索
    • seo
    • 链接提交
  • 关于惊雷算法的要点解读

    惊雷算法解读

    惊雷算与1.0不同的是针对恶意链接的问题提出了整顿,下面让我们带你一起解读。对这个情况进行说明:针对恶意了知道作弊超链、恶意刷点击的作弊行为进行了算法的再次升级。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2157
    • 惊雷算法解读
  • 什么样的外链才是高质量外链?

    高质量外链标准

    外链建设是SEO优化中重要的一项,可以有效快速的提升网站的抓取数量,其实是对于新站更加有意义,可以快速的提升网站的权重,但是随着搜索引擎算法不断的迭代,也推出了打击外链买卖作弊的行为,比如百度搜索引擎就有绿萝算法。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1242
    • 高质量外链标准
  • SEO前景如何,能干一辈子吗?

    SEO前景

    是SEO走向落寞了吗?​现在越来越多的人开始选择放弃seo,而去选择短视频新媒体等推广引流方式,不知大家如何看待这一现象呢?今天潘某人SEO来分享下对于SEO发现前景的看法,希望对你有帮助!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 6538
    • SEO前景