SimHash算法,关键词堆砌打击

Simhash算法又被SEO站长们成为关键词匹配算法,当用户搜索一个关键词的时候,会出现相关的网站进行展现,但是前些年有个别站长发现关键词密度越高排名越好,这是搜索引擎前期的漏洞,Simhash算法(也成分词匹配算法)对关键词堆砌起到了决定性的打击,尤其是新站一旦有关键词堆砌的嫌疑,将会在好几个月内无法获得排名。

说到文本相似性计算,大家首先想到的应该是使用向量空间模型VSM(Vector Space Model)。使用VSM计算相似度,先对文本进行分词,然后建立文本向量,把相似度的计算转换成某种特征向量距离的计算,比如余弦角、欧式距离、Jaccard相似系数等。这种方法存在很大一个问题:需要对文本两两进行相似度比较,无法扩展到海量文本的处理。想想像Google这种全网搜索引擎,收录了上百亿的网页,爬虫每天爬取的网页数都是百万千万级别的。为了防止重复收录网页,爬虫需要对网页进行判重处理。如果采用VSM方法,计算量是相当可观的。

这里介绍的SimHash算法很好的解决了VSM方法的缺陷,该方法最初由Google提出,用于网页去重。在介绍SimHash前,先大概说下传统的Hash算法。我们知道,衡量一个Hash算法好坏的一个指标是随机性。也被称作简单一致散列假设:每个关键字都等可能地散列到m个槽位中的任何一个中去,并与其他的关键字已被散列到哪一个槽位中无关。说白了,就是让散列的分布尽量均匀,哪怕内容发生很小的变化,hash值也会发生很大的变化。因此,根据传统的hash值无法得知被散列内容的相似程度。

simhash可以计算文本间的相似度,我们可以通过simhash算法计算出文档的simhash值,通过比较各个文本的simhash值之间的汉明距离的大小来判断其相似度,汉明距离越小,则相似度越大。一般大文本去重,大小<=3的即可判断为重复。



simhash算法分为5个步骤:1、分词、2、hash、3、加权、4、合并、5、降维


1、分词:

选择适合自己的分词库进行分词即可。

如“欢迎来到随迹”->(分词后)“欢迎”、“来到”、“随迹”


2、hash:

对每个词计算其hash值,hash值为二进制数01组成的n-bit签名。

设“欢迎“(100101)、“来到”(101011)、“随迹”(101011)


SimHash算法


3、加权:

对于给定的文本,权值即为分词后对应词出现的数量。给所有特征向量进行加权,即W = Hash * weight;这里我们假设三个词权值分别为4、5、9;

根据计算规则遇到1则hash值和权值正相乘,遇到0则hash值和权值负相乘

例如给“欢迎”的hash值“100101”加权得 到:W(欢迎) = 1001014 = 4 -4 -4 4 -4 4,给“来到”的hash值“101011”加权得到:W(来到)=1010115 = 5 -5 5 -5 5 5,剩下的按此规则计算


4、合并

将上述各个特征向量的加权结果累加,变成只有一个序列串。拿前两个特征向量举例,例如“欢迎”的“4 -4 -4 4 -4 4”和“来到”的“5 -5 5 -5 5 5”进行累加,得到“4+5 -4+-5 -4+5 4+-5 -4+5 4+5”,得到“9 -9 1 -1 1”。


5、降维

对于n-bit签名的累加结果,如果大于0则置1,否则置0,从而得到该语句的simhash值,最后我们便可以根据不同语句simhash的海 明距离来判断它们的相似度。例如把上面计算出来的“9 -9 1 -1 1 9”降维(某位大于0记为1,小于0记为0),得到的01串为:“1 0 1 0 1 1”,从而形成它们的simhash签名。


申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seosuanfa/407

相关文章

  • 原创内容是SEO优化的关键吗

    原创,SEO优化

    在搜索引擎算法日新月异的今天,通过技术手段试图获取排名的方式越来越难以为继,稳定性也大打折扣。可以说,我们已经步入了“内容为王”的时代。不少坚持进行原创内容创作的站点发现,效果并不如预期,甚至在收录方面都遇到了重重困难。很多人认为内容质量等同于原创性,但事实真的如此吗?原创内容是SEO优化的关键吗?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 271
    • 原创
    • SEO优化
  • 巧用robots避免蜘蛛黑洞

    robots,蜘蛛黑洞

    今天我们来了解下什么是蜘蛛黑洞,黑洞大家应该有一定的了解,属于一种高质量高引力天体,包括光任何的物体都无法逃逸。蜘蛛黑洞既是蜘蛛进入之后无法再出来,对正常的抓取工作产生负面影响。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1538
    • robots
    • 蜘蛛黑洞
  • 如何一本正经的胡说八道,而你深信不疑

    确认偏误,认知闭合

    人们面对未知内容时选择相信的现象,是一个涉及心理学、社会学和认知科学的复杂议题。认知闭合需求、情感补偿机制、确认偏误、群体极化效应等诸多因素,有趣的可以进一步的去了解。那么我们又如如何抵御,避免自身陷入其中。做一个聪明人,有判断力的能人,自己可以不是那个胡说八道的人,但是决不能成为一本正经胡说八道的受众群体。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 5050
    • 确认偏误
    • 认知闭合
  • 如何交换友链及其注意事项

    友情链接交换

    在SEO优化中友情链接的交换,不能单纯只看交换网站的权重,网站的内容质量,以及内容的相关性,网站是否符合规定,等等等因素都是需要注意的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1702
    • 友情链接交换
  • 网站安全对百度SEO有何重要性

    网站安全与SEO的关系

    网站安全对百度SEO有何重要性?国内至少有80%的网站存在着安全问题,严重困扰并威胁着网站的正常运维。那你的网站存在安全问题吗,该如何解决网站的安全问题?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1364
    • 网站安全与SEO的关系
  • SEO优化检测工具有哪些

    SEO工具

    SEO优化检测工具有哪些?网站建成之后,我们往往还要进行SEO的优化工作。但是,怎么检查您的网站的SEO优化是否符合相关的技术标准呢?那么就需要配合第三方的SEO检测工具来帮助您检查。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 4052
    • SEO工具
  • 网站栏目数量对于权重的影响

    网站栏目,权重,seo

    ​如果您近期正在打算搭建网站,那么看到这篇文章就赶上了。很多站点在网站搭建的时候就为后期的SEO优化埋下了诸多的坑。如网站的栏目结构可以说是重灾区。网站的栏目数量要适当不宜多,对于大多数网站栏目数量控制在3-5左右差不多。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 714
    • 网站栏目
    • 权重
    • seo
  • 打破SEO排名僵局,内容为王时代的突围之道

    SEO排名

    在2025年的今天,许多网站管理员和SEO从业者都面临着一个共同的问题——无论怎么努力优化自己的网站,遵循算法标准进行操作,排名却始终停滞不前。这到底是为什么呢?难道是我们的优化策略出了问题吗?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 339
    • SEO排名
  • SEO网站页面性能优化指南

    网站页面速度优化

    SEO网站页面性能优化指南,慢速主要原因: 1、关键子资源耗时较严重; 2、页面存在额外跳转; 3、主文档耗时较为严重。页面打开速度直接的影响着转化的水平

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2031
    • 网站页面速度优化
  • “千人一面”与“千人千面”的区别

    千人一面,千人千面

    大家有没有发现在查询关键排名的时候,旁人搜索出来的结果和你不一样呢?造成这种现象是因为千人千面的存在,千人千面简单的讲就是一千人提供一千种策略,也是对于每个用户的策略都是不同的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1463
    • 千人一面
    • 千人千面
  • 爬行、抓取、索引、收录的区别

    爬行,抓取,索引,收录

    收录对于站长来说是在熟悉不过的了,但是很多人对于收录还是存在一些理解上的偏差,要正确的理解收录,那么必须要对搜索引擎的爬行、抓取、索引、收录几个概念有正确的认知,对于掌握搜索引擎的收录过程是先决条件。爬行、抓取、索引、收录,是搜索引擎的收录内容的一个流程。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2058
    • 爬行
    • 抓取
    • 索引
    • 收录
  • 死链对于SEO的危害,及其处理方式

    死链,SEO优化

    ​网站运营之中死链的出现是无法避免的,但如果无法及时发现并正确处理势必对于网站的SEO优化产生一定的影响。那么我们应该如何及时发现死链,如何及时处理呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 983
    • 死链
    • SEO优化
  • robots文件里该不该加上sitemap地址

    robots里放sitemap

    robots文件里该不该加上sitemap地址,有种说法就是搜索引擎抓取一个网站首先会抓取robots文件,这样把sitemap地址写在robots文件里,这样搜索引擎可以地址直接的对网站地图进行抓取,可以加快链接收录的速度,真相并不是这样

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2605
    • robots里放sitemap
  • 域名价值评估

    域名价值评估

    大家知道一个域名的价值是由什么决定的呢?你知道如何判断一个域名的价值呢?对于SEOER们会从域名的权重角度来判断,但还是比较片面,我们应该从哪些方面更好判断一个域名的价值。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 918
    • 域名价值评估
  • 如何搭建网站更利于SEO优化

    wordpress,SEO优化,网站搭建

    如何搭建网站才更合适利于SEO,采用cms系统建站、外包建站、还是自己开发呢?内容为王这是一切的根本;技术为辅,但是也同样重要,保证网站基本的稳定性及访问速度。一个优秀的站点需要创造用户的喜爱的内容,通过可以让用户舒服的方式去展示出来。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 713
    • wordpress
    • SEO优化
    • 网站搭建
  • 百度索引量与收录量,两者有什么不同

    百度索引量,收录量

    在讲索引量和收录量的时候,就不得不反问下大家你真知道什么是收录吗?可以说大多数人对于收录的认知是错误,存在索引和收录概念混淆的情况。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1349
    • 百度索引量
    • 收录量
  • 新站SEO优化全攻略:如何在搜索引擎中脱颖而出

    新站优化

    随着搜索引擎算法的不断进步,对于新站而言,实现有效的SEO优化变得前所未有的挑战。尤其对于那些零基础的新站点来说,想要在搜索结果中占据一席之地更是难上加难。然而,“好的开始是成功的一半”,正确的起步能够为新站打下坚实的基础。今天,就与潘某人SEO一起探讨下新站SEO优化的关键要素,如何让网站快速成长。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 399
    • 新站优化
  • 网站被K?别慌!一文看懂症状、原因及恢复全攻略!

    网站降权

    SEO是一项惊心动魄的工作,你永远不知道第二天迎接你的是惊喜还是惊吓。尤其是当你的网站突然“消失”在搜索引擎中,流量断崖式下跌时,那种焦虑和无助感几乎每个站长都曾经历过。今天潘某人SEO就来聊一个让无数站长夜不能寐的话题——网站被K。到底什么是网站被K?有哪些典型症状?如何判断自己是否被K?被K后该如何处理?又该如何预防?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 329
    • 网站降权