搜索引擎内容原创性之分词技术与文本粒度

seo优化中内容的原创性是非常重要的,那么对于搜索引擎是如何判断内容的原创性呢?首先就是时间先后上,同样的内容最先被搜索引擎抓取到则为原创;其次就是内容的稀缺性。很多站点为了获得原创性又不想花费过高的时间人力成本就会选择为伪原创的方式,但是其实这种方法意义并不是很大。

伪原创的识别

伪原创的可行性取决于是否可以被搜索引擎识别到,这个就和今天的主题“文本粒度”有密不可分的关系,先说结论伪原创可以被识别。伪原创一般的手法就是,内容中同义词替换,顺序颠倒,但是这些行为并不会影响文本粒度。

什么是文本粒度

文本粒度是一个复杂的概念,在讲粒度之前首先必须明白(Query)分词技术,人与机器处理文档时最大的区别,人是具备思维能力的,是通过对整个文档含义的理解;但是机器是无法理解任何的内容,只能通过算法来分辨文本内容。

分词技术

分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。简单的讲就是分词技术会把整个文档分割成无数个短语。分词技术现今非常成熟了,分为3种技术。

字符串匹配的分词方法

这是种常用的分词法,百度就是用此类分词。字符串匹配的分词方法,又分为3种分词方法。正向最大匹配法、反向最大匹配法、反向最大匹配法、双向最大匹配法。

词义分词法

就是一种机器语音判断的分词方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,还不成熟,处在测试阶段。

统计分词法

根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符,这样来分词。

文本粒度的作用

分词的时候是需要一定逻辑的,分词不能乱分,比如分得过细会导致对于内容识别失去意义。举例,关键词“潘某人SEO优化”,可以分为“潘某人,seo,优化”,这种分词是比较合理的,但是如果分为“潘某,人,s,e,o,优、化”这种显然就失去了意义。
而文本可粒度则正是分词时候的一个度的衡量标准,粒度是衡量文本所含信息量的大小。文本含信息量多,粒度就大,反之就小。有了这个原则,我们就很容易判断文本粒度大小了。

什么是文本的粒度

什么是文本的粒度?,让我们先看看以下几组词汇,可以帮助大家更好的理解本文粒度:

孤独、倒霉、粒子、嚣张
奶茶、冰球、鞋垫、旱冰鞋
打球、跳绳、炒菜、登山
苹果笔记本电脑、IPTV机顶盒、潘某人SEO优化
大头儿子小头爸爸、家有儿女、一个人的精彩

像“孤独”,“倒霉”,“粒子”,“嚣张”这些词,虽然有两个字组成,但是仅表达一个意思,再分割就失去意义了,这些词的粒度是小的。而“冰球”,“奶茶”等词,是由简单词合成的,虽然也可以明确表明一定含义,但是进行查分之后还是存在含义的如“奶”和“茶”,“冰”和“球”。这类词,粒度稍微大一些。而“苹果笔记本电脑”,“IPTV机顶盒”这样的词,粒度就更大了。
文本的粒度
还有一类比较特殊的词,尽管所含字数很多,但其实只表达一个意思,如“大头儿子小头爸爸”,“家有儿女”这样的电影、电视剧的名称,粒度是很小的。将此类词继续分割在搜索上的意义更低。
所以文本粒度的大小和文本的长度没有决定性关系,除去一些较长有特殊含义的短语,文本内容越长粒度就越小。

伪原创意义不大

所以基于粒度和分词技术,伪原创内容的意义有限,简单的内容调换删减,近似同意替换,基本上无法改变整片文章的粒度。就比如微信公众号的原创文章,只有当你把原创文章修改添加内容篇幅足够大的时候才可以不被识别到。
而伪原创原本就是为了降低时间人力成本,深度伪原创的时间成本并不低,或者增强机器伪原创的度,则会因为替换的内容太多导致整体的语义不同,失去了阅读上的价值。
基于这也是搜索引擎实现内容恶意采集,内容拼接,低质量内容识别的基本逻辑原理。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seoxinde/832

相关文章

  • 如何禁止网页内容被复制

    如何禁止网页内容被复制

    现在SEO优化鼓励内容为王,也就是鼓励大家原创。那么问题来了,如果当我们在原创的时候自己的内容却在被别人抄袭,是不是很气人,今天教大家如何屏蔽网页内容的复制。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2061
    • 如何禁止网页内容被复制
  • 网站SEO优化之关键词稀缺性

    SEO优化,关键词,稀缺性

    如果你的站点不管怎么优化,很大可能就是关键词选择有误,正确的关键词是SEO优化成功的关键。​SEO优化的目的是流量的获取,而网站的流量则是各个关键词流量的总和,同时流量的质量类中则则是由关键所决定,因此网站优化原则正确的关键词对于站点的优化效果以及转化效果至关重要。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 724
    • SEO优化
    • 关键词
    • 稀缺性
  • SEO网站优化的作用

    网站优化的作用

    很多人也许听说过SEO,但这些人却不一定了解SEO的作用,SEO优化有什么价值呢,能给一个企业带来什么呢?可以有效的为企业降低推广成本的同时,又可以获得更多的成交。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1330
    • 网站优化的作用
  • 什么是网站的抓取频次

    抓取频次,网站收录

    抓取频次是搜索引擎蜘蛛在单位时间内容访问网站的次数,比如在百度站长工具内容看到的抓取的频次都是按天进行统计的,那么数据中的抓取频次都是日抓取频次。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1418
    • 抓取频次
    • 网站收录
  • SEO中的权重你真的搞懂了吗

    权重,SEO

    权重对于SEO从业者来说可以说在熟悉不过了,很多时候被用来验证工作成果,虽然这种行为不科学,但是大家对于高权重的追求还是非常热衷的,但是你的对于权重全面的了解了吗?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1028
    • 权重
    • SEO
  • 大多数站长搞错了SEO的核心

    SEO的核心,seo优化

    大家觉得SEO优化的核心重点是什么呢?关键词排名展现,如果您是这么认为的那请看完这篇文章,你会有不同的感悟。SEO的核心并不是在于关键词的排名,关键的排名只是途径。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 709
    • SEO的核心
    • seo优化
  • TDK标签优化的技巧

    TDK标签,TDK优化

    什么是TDK,网站关键词、标签、描述还重要吗?TDK该怎么写呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1544
    • TDK标签
    • TDK优化
  • 百度快照更新时间的解析

    百度快照,快照时间更新

    百度快照时间更新和网站的权重是一个什么样的关系呢?很多站点一直的对于快照和权重的关系存在着误解。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1062
    • 百度快照
    • 快照时间更新
  • 什么是AI写作,对SEO有作用吗?

    AI写作,伪原创,收录

    伪原创,在原创和采集之间取了一个中间点,既节省了时间又提升了内容的生产速度。随着伪原创不断的发展就出现了AI写作这个概念,AI写作对SEO有作用吗,目的是为了进行更深层次的伪原创加大搜索引擎识别的难度,从而降低网站被算法识别惩罚的几率。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1068
    • AI写作
    • 伪原创
    • 收录
  • 仿站相似站会对SEO有影响吗

    仿站SEO

    仿站或者类似结构站点会对SEO有影响吗?如何去搭建网站才能更加利于站点的seo优化呢?仿站对于网站优化的利弊有哪些呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 738
    • 仿站SEO
  • SEO攻击防御与效果稳定

    seo优化

    当你的站点在行业内有了一定的知名度和影响力之后,那么不可避免会遭受到攻击抄袭模仿,那么我们又应该如何面对这些情况呢?今天就从技术和内容的角度讲到的讲一下如何处理此类情况。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1686
    • seo优化
  • 网站被恶意泛解析的解决方法

    恶意泛解析解决

    什么是泛域名解析,网站被恶意泛解析的解决方法。通过site对某网站进行查询的时候,发现突然多了许多的陌生二级域名页面,经过网上大量搜索才知道,这都是因为域名被恶意泛解析后导致的后果。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1420
    • 恶意泛解析解决
  • AI大模型或将走上搜索引擎的老路

    AI大模,搜索引擎

    AI大模型以其强大的生成能力和广泛的应用场景,已逐步的融入到大家的生活中。AI大模的数据污染与低质量内容问题或将成为一个严峻的问题,AI大模型或将走上搜索引擎的老路。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 5058
    • AI大模
    • 搜索引擎
  • 做SEO前必须知道的那些事

    SEO优化

    入SEO者常有,而有效果者不常有,想要做好SEO获得效果,那么在做SEO前必须知道的这些事。在这个内卷的时代,广告费用节节攀升的情景下;再加上这些年来SEM付费广告的出现的一些负面事件,导致越来越多的人对搜索引擎的付费广告比较反感;这使得SEO的价值还在不断地提升。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 466
    • SEO优化
  • 网站ICP备案对于SEO优化的影响

    ICP备案,SEO优化

    网站ICP备案对于SEO优化的影响。先说结论,如果你的优化重点是国内的搜索引擎,那么网站ICP备案至关重要。很多年前网站备案对于SEO优化影响度很低,但是近几年已经完全不一样。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1257
    • ICP备案
    • SEO优化
  • SEO从业者格局打开路也就宽了

    SEO发展,SEO优化

    对于SEO从业者首先要打开格局眼界,才能在SEO优化的路上走远。很多SEO从业者在未自己的再来迷茫,不得不说如今的SEO市场的确也不咋地,不是说SEO优化没有前景,而是SEO的环境很差,有点劣币驱逐良币。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 830
    • SEO发展
    • SEO优化
  • 网站site和索引量差距过大

    site与索引量

    对于seo的日常会比较关注site出来的结果数量和站长后台的索引量,但是很多情况下我们会遇到site数量和索引量的差距比较大,出现这种情况大家的小心脏不免心慌慌,那么为什么站长平台的索引量和site展现不一致呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2467
    • site与索引量
  • 如何做好原创内容版权保护

    版权保护,原创内容保护,百度时间因子

    分享如何对站点原创内容的保护,如何查找抄袭站点,如何保留抄袭证据等方法,来保护自己的合法权益。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1313
    • 版权保护
    • 原创内容保护
    • 百度时间因子