搜索引擎内容原创性之分词技术与文本粒度

seo优化中内容的原创性是非常重要的,那么对于搜索引擎是如何判断内容的原创性呢?首先就是时间先后上,同样的内容最先被搜索引擎抓取到则为原创;其次就是内容的稀缺性。很多站点为了获得原创性又不想花费过高的时间人力成本就会选择为伪原创的方式,但是其实这种方法意义并不是很大。

伪原创的识别

伪原创的可行性取决于是否可以被搜索引擎识别到,这个就和今天的主题“文本粒度”有密不可分的关系,先说结论伪原创可以被识别。伪原创一般的手法就是,内容中同义词替换,顺序颠倒,但是这些行为并不会影响文本粒度。

什么是文本粒度

文本粒度是一个复杂的概念,在讲粒度之前首先必须明白(Query)分词技术,人与机器处理文档时最大的区别,人是具备思维能力的,是通过对整个文档含义的理解;但是机器是无法理解任何的内容,只能通过算法来分辨文本内容。

分词技术

分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。简单的讲就是分词技术会把整个文档分割成无数个短语。分词技术现今非常成熟了,分为3种技术。

字符串匹配的分词方法

这是种常用的分词法,百度就是用此类分词。字符串匹配的分词方法,又分为3种分词方法。正向最大匹配法、反向最大匹配法、反向最大匹配法、双向最大匹配法。

词义分词法

就是一种机器语音判断的分词方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,还不成熟,处在测试阶段。

统计分词法

根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符,这样来分词。

文本粒度的作用

分词的时候是需要一定逻辑的,分词不能乱分,比如分得过细会导致对于内容识别失去意义。举例,关键词“潘某人SEO优化”,可以分为“潘某人,seo,优化”,这种分词是比较合理的,但是如果分为“潘某,人,s,e,o,优、化”这种显然就失去了意义。
而文本可粒度则正是分词时候的一个度的衡量标准,粒度是衡量文本所含信息量的大小。文本含信息量多,粒度就大,反之就小。有了这个原则,我们就很容易判断文本粒度大小了。

什么是文本的粒度

什么是文本的粒度?,让我们先看看以下几组词汇,可以帮助大家更好的理解本文粒度:

孤独、倒霉、粒子、嚣张
奶茶、冰球、鞋垫、旱冰鞋
打球、跳绳、炒菜、登山
苹果笔记本电脑、IPTV机顶盒、潘某人SEO优化
大头儿子小头爸爸、家有儿女、一个人的精彩

像“孤独”,“倒霉”,“粒子”,“嚣张”这些词,虽然有两个字组成,但是仅表达一个意思,再分割就失去意义了,这些词的粒度是小的。而“冰球”,“奶茶”等词,是由简单词合成的,虽然也可以明确表明一定含义,但是进行查分之后还是存在含义的如“奶”和“茶”,“冰”和“球”。这类词,粒度稍微大一些。而“苹果笔记本电脑”,“IPTV机顶盒”这样的词,粒度就更大了。
文本的粒度
还有一类比较特殊的词,尽管所含字数很多,但其实只表达一个意思,如“大头儿子小头爸爸”,“家有儿女”这样的电影、电视剧的名称,粒度是很小的。将此类词继续分割在搜索上的意义更低。
所以文本粒度的大小和文本的长度没有决定性关系,除去一些较长有特殊含义的短语,文本内容越长粒度就越小。

伪原创意义不大

所以基于粒度和分词技术,伪原创内容的意义有限,简单的内容调换删减,近似同意替换,基本上无法改变整片文章的粒度。就比如微信公众号的原创文章,只有当你把原创文章修改添加内容篇幅足够大的时候才可以不被识别到。
而伪原创原本就是为了降低时间人力成本,深度伪原创的时间成本并不低,或者增强机器伪原创的度,则会因为替换的内容太多导致整体的语义不同,失去了阅读上的价值。
基于这也是搜索引擎实现内容恶意采集,内容拼接,低质量内容识别的基本逻辑原理。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seoxinde/832

相关文章

  • 网站TDK常规写法

    description描述标签,keywords标签,title标签

    本段文字讲述 title标题标签 、keywords关键词标签 、 description描述标签 该如何撰写以及所需注意事项。TDK最重要的一条就是要与文章内容高度相关,而不是想写什么就写什

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1683
    • description描述标签
    • keywords标签
    • title标签
  • 新站不收录的原因

    新站不收录

    网站收录的重要性不言而喻,对于SEO优化来说,能够获得稳定的收录增长是最基本的。那么是哪些因素导致新站不收录呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1276
    • 新站不收录
  • 图片懒加载对于SEO优化有影响吗?

    懒加载,延迟加载,seo优化

    网站图片使用懒加载也就是延迟加载技术,对于SEO优化会有不良的负面影响吗?对于图片的延迟加载我们应该如何去看待处理,才能做到兼顾网站的加载速度以及SEO优化的效果呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2126
    • 懒加载
    • 延迟加载
    • seo优化
  • h1标签对seo优化重要吗

    H标签SEO优化

    H标签可以通过重要程度分为H1>H2>H3>H4>H5>H6.........,那么很多都会想到既然H1标签可以突出页面的重点,那么岂不是对于想要优化的关键词我们可以使用H1标签来突出它?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1659
    • H标签SEO优化
  • SEO优化的常规策略

    SEO优化策略

    凡事都先要有计划,对于SEO优化首先要确立站点的优化策略和方针,劲往一处使才可以更快获得更好的效果。今天我们就来说一下如何正确的选择优化策略,避免走弯路,好的开始是成功的一半,走错方向越努力离成功就越远。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 892
    • SEO优化策略
  • 百度关键词指数是什么意思

    百度指数,关键词指数

    百度关键词指数是什么意思,通俗来说,百度指数是一个数据分享平台,通过这个海量数据平台,直观的以指数展现,从而能够反应这个关键词在百度的搜索规模有多大,一段时间内的涨跌态势以及相关的新闻舆论变化,关注这些词的网民是什么样的,分布在哪里。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3752
    • 百度指数
    • 关键词指数
  • 百度SEO抓取友好性之链接发现

    百度SEO,链接提交

    ​当网站有了内容,要实现内容的收录,就需要先实现内容被搜索引擎抓取,而要实现抓取就可以让搜索引擎发现链接。对于常见搜索引擎,发现链接的方式主要有两种方式,一种是抓取获取,一种是站点的提交。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 859
    • 百度SEO
    • 链接提交
  • 内容模块之间为何要设置合理间隔

    页面为何要设置合理间隔

    内容模块之间为何要设置合理间隔,主体内容应与广告、相关推荐等次要内容板块之间有明显间隔距离或分割线,使用户获取信息时不受任何干扰。”本文将为你详细讲解如何设置合理间隔更符合用户浏览页面信息的需要。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1659
    • 页面为何要设置合理间隔
  • CDN防止网站被黑攻击

    CDN,网站被黑

    CDN的可以有效的隐藏网站的真实的IP地址,用户访问到的是离自己最近的CDN服务器;不仅仅加快了全球各地用户的访问速度体验,同时因为IP的隐藏,加大了攻击者访问到真实地址的难度,另一方学会如何设置好服务器的安全组,也可以有效防止网站被黑。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1145
    • CDN
    • 网站被黑
  • 如何快速提升关键词排名?

    提升关键词排名

    如何快速提升关键词排名?可以从流量冲击、时效性热点内容 、高质量外链、网站整体权重、交换一些友情链接,多角度同时进行有效快速提升关键词排名。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1470
    • 提升关键词排名
  • 网站site和索引量差距过大

    site与索引量

    对于seo的日常会比较关注site出来的结果数量和站长后台的索引量,但是很多情况下我们会遇到site数量和索引量的差距比较大,出现这种情况大家的小心脏不免心慌慌,那么为什么站长平台的索引量和site展现不一致呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2553
    • site与索引量
  • SEO关键词你选对了吗?分享选词妙招!

    SEO,关键词,选词

    ​关键词是SEO优化核心之一,也是用户、搜索引擎和站点之间的桥梁,用户通过在搜索引擎使用关键词搜索所需的内容,搜索引擎通过关键词实现内容的索引和排序的建立。潘某人SEO常用的选词方法分享给大家。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 721
    • SEO
    • 关键词
    • 选词
  • 索引量和收录量的区别

    关系区别,收录量,索引量

    索引量和收录量的很容易混淆认清两者的关系对于网站优化十分的有帮助,分析索引量和收录量的数据可以及时的发现网站的问题。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2685
    • 关系区别
    • 收录量
    • 索引量
  • 如何更新或删除百度快照

    百度快照更新

    很多人在优化的过程中想要去更新或者删除百度快照,但是碍于自己还是新手,实战经验不是很丰富,不懂得如何去操作,今天我给大家简单的分享一下。有时候,我们对网站进行了改版,修改了标题、描述等等,这个时候我们想要更新百度快照,让快照尽快更新过来,或者让标题、描述快速更新过来,怎么办?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2275
    • 百度快照更新
  • 内链算法快,快速提升关键词排名

    内链算法

    内链算法快,快速提升关键词排名?内链是搜索引擎200多项算法中对网站打分的一个重要算法,利用内链算法快速提升权重获得排名。但是做内链的思维和方向你们知道怎么做是有利内链算法加分的。内链不能随便乱链,

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1829
    • 内链算法
  • robots协议不生效怎么处理

    robots

    为什么明明已经设正确设置的robots的屏蔽规则,但是就是不生效导致不该收录的内容被收录了呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 884
    • robots
  • 新站如何快速增加收录​

    新站快速收录​

    网站收录的开始,是站点SEO优化旅程的开启。对新站的SEO优化来说,收录就是一个难题,几个月不收录或者只收录几个页面是很常见的。那么新站我们如何做到快速收录呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1765
    • 新站快速收录​
  • 360不收录的原因

    360不收录如何解决

    相信很多的seo们遇到过这个问题,就是百度的收录很正常,排名也还可以,但是360可能连首页都不收录,或者是只收录一个首页,新站和老站都会出现这个问题,那么到底是什么原因造成的呢?如何解决360不收录的问题呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1799
    • 360不收录如何解决