搜索引擎内容原创性之分词技术与文本粒度

seo优化中内容的原创性是非常重要的,那么对于搜索引擎是如何判断内容的原创性呢?首先就是时间先后上,同样的内容最先被搜索引擎抓取到则为原创;其次就是内容的稀缺性。很多站点为了获得原创性又不想花费过高的时间人力成本就会选择为伪原创的方式,但是其实这种方法意义并不是很大。

伪原创的识别

伪原创的可行性取决于是否可以被搜索引擎识别到,这个就和今天的主题“文本粒度”有密不可分的关系,先说结论伪原创可以被识别。伪原创一般的手法就是,内容中同义词替换,顺序颠倒,但是这些行为并不会影响文本粒度。

什么是文本粒度

文本粒度是一个复杂的概念,在讲粒度之前首先必须明白(Query)分词技术,人与机器处理文档时最大的区别,人是具备思维能力的,是通过对整个文档含义的理解;但是机器是无法理解任何的内容,只能通过算法来分辨文本内容。

分词技术

分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。简单的讲就是分词技术会把整个文档分割成无数个短语。分词技术现今非常成熟了,分为3种技术。

字符串匹配的分词方法

这是种常用的分词法,百度就是用此类分词。字符串匹配的分词方法,又分为3种分词方法。正向最大匹配法、反向最大匹配法、反向最大匹配法、双向最大匹配法。

词义分词法

就是一种机器语音判断的分词方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,还不成熟,处在测试阶段。

统计分词法

根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符,这样来分词。

文本粒度的作用

分词的时候是需要一定逻辑的,分词不能乱分,比如分得过细会导致对于内容识别失去意义。举例,关键词“潘某人SEO优化”,可以分为“潘某人,seo,优化”,这种分词是比较合理的,但是如果分为“潘某,人,s,e,o,优、化”这种显然就失去了意义。
而文本可粒度则正是分词时候的一个度的衡量标准,粒度是衡量文本所含信息量的大小。文本含信息量多,粒度就大,反之就小。有了这个原则,我们就很容易判断文本粒度大小了。

什么是文本的粒度

什么是文本的粒度?,让我们先看看以下几组词汇,可以帮助大家更好的理解本文粒度:

孤独、倒霉、粒子、嚣张
奶茶、冰球、鞋垫、旱冰鞋
打球、跳绳、炒菜、登山
苹果笔记本电脑、IPTV机顶盒、潘某人SEO优化
大头儿子小头爸爸、家有儿女、一个人的精彩

像“孤独”,“倒霉”,“粒子”,“嚣张”这些词,虽然有两个字组成,但是仅表达一个意思,再分割就失去意义了,这些词的粒度是小的。而“冰球”,“奶茶”等词,是由简单词合成的,虽然也可以明确表明一定含义,但是进行查分之后还是存在含义的如“奶”和“茶”,“冰”和“球”。这类词,粒度稍微大一些。而“苹果笔记本电脑”,“IPTV机顶盒”这样的词,粒度就更大了。
文本的粒度
还有一类比较特殊的词,尽管所含字数很多,但其实只表达一个意思,如“大头儿子小头爸爸”,“家有儿女”这样的电影、电视剧的名称,粒度是很小的。将此类词继续分割在搜索上的意义更低。
所以文本粒度的大小和文本的长度没有决定性关系,除去一些较长有特殊含义的短语,文本内容越长粒度就越小。

伪原创意义不大

所以基于粒度和分词技术,伪原创内容的意义有限,简单的内容调换删减,近似同意替换,基本上无法改变整片文章的粒度。就比如微信公众号的原创文章,只有当你把原创文章修改添加内容篇幅足够大的时候才可以不被识别到。
而伪原创原本就是为了降低时间人力成本,深度伪原创的时间成本并不低,或者增强机器伪原创的度,则会因为替换的内容太多导致整体的语义不同,失去了阅读上的价值。
基于这也是搜索引擎实现内容恶意采集,内容拼接,低质量内容识别的基本逻辑原理。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seoxinde/832

相关文章

  • keywords、description已经不重要了?

    keywords和description,SEO标签,关键词和描述

    不要随大众觉得keywords、description,即SEO优化中常说的关键词和描述两大SEO标签不在重要,这种观点过于果断缺乏依据。无论搜索引擎怎么调整。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2276
    • keywords和description
    • SEO标签
    • 关键词和描述
  • CDN防止网站被黑攻击

    CDN,网站被黑

    CDN的可以有效的隐藏网站的真实的IP地址,用户访问到的是离自己最近的CDN服务器;不仅仅加快了全球各地用户的访问速度体验,同时因为IP的隐藏,加大了攻击者访问到真实地址的难度,另一方学会如何设置好服务器的安全组,也可以有效防止网站被黑。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1052
    • CDN
    • 网站被黑
  • 百度统计事件跟踪怎么添加

    百度统计事件跟踪,_trackEvent

    百度统计事件跟踪_trackEvent怎么添加使用,以一个页面点击的追踪统计作为一个例子。来演示下如何部署使用百度统计的事件分析js-api接口。学会合理利用事件分析功能,会对数据统计的灵活度有很大的提升,不仅对于SEO优化,网站的转化优化都可以提供强有力的支持。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2319
    • 百度统计事件跟踪
    • _trackEvent
  • 百度蓝天算法2.0解析,构造目录行为打击

    构造目录,百度蓝天算法

    百度蓝天算法打击什么行为呢?解读下蓝天算法2.0会带来什么影响,算法中的针对关键点是构造目录。应该如何应对呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1641
    • 构造目录
    • 百度蓝天算法
  • 百度死链提交工具使用说明

    百度死链提交

    百度死链提交工具使用说明,当网站死链数据累积过多时,并且被展示到搜索结果页中,对网站本身的访问体验和用户转化都起到了负面影响。另一方面,百度检查死链的流程也会为网站带来额外负担,影响网站其他正常页面的抓取和索引。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 6467
    • 百度死链提交
  • SEO原创内容真的正确吗?大多人都搞错了重点!

    SEO原创

    “做SEO,必须原创!”这句话你是不是已经听了无数遍?从搜索引擎官方到SEO大神,都在强调“原创内容有利于排名”。于是,无数人开始熬夜写稿、花钱请写手、甚至用AI批量生成“原创内容”……但结果呢?流量没涨,排名没动,投入的时间和金钱却打了水漂。因为你可能从一开始就搞错了重点——原创 ≠ 有价值,而SEO真正需要的,是价值,不是“原创”这个标签。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 130
    • SEO原创
  • 网站SEO优化到底监控什么?别只会看“权重”!

    SEO优化,权重

    在如今这个流量为王的时代,搜索引擎优化(SEO)已经成为企业推广不可或缺的一环。但很多SEO从业者和站长仍然陷入误区——过度关注“网站权重”,却忽略了真正影响转化的核心数据。其实,SEO优化不是靠感觉、也不是靠玄学,而是要靠精准的数据分析与持续的策略调整。今天,潘某人SEO就来探讨下网站SEO优化到底应该监控哪些关键指标?又该如何正确解读这些数据?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 338
    • SEO优化
    • 权重
  • SEO外包靠谱吗?

    SEO外包

    SEO外包靠谱吗?你会选择外包吗?你觉得会有效果吗?为什么大多数站点SEO优化最终失败了?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 870
    • SEO外包
  • 搜狗一直不收录怎么办

    搜狗不收录

    现在新站收录各大搜索引擎越来越难,主要是因为一方面互联网的飞速发展,站点的数量也是指数级别的递增,所以最不缺的就是站点。缺少的是有价值的站点,由于网站数量的庞大,抓取站点需要的资源也越来越大,对于搜索引擎加大对于站点的筛选,选择有价值的站点去优先抓取,显得非常的合理。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1104
    • 搜狗不收录
  • SEO付费方式比较靠谱

    seo付费模式

    按天?按月?还是按年?来看看哪款SEO付费方式更适合你!不论是按天收费还是按年、按月收费,其实都是我们SEO优化服务的一种计费模式。正所谓存在即合理,两者间其实都是互有优劣的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1822
    • seo付费模式
  • 如何禁止百度建立页面快照

    屏蔽快照

    很多站点出于隐私的考虑不希望百度保留快照,网上也在讨论如何禁止百度保留快照的方法。其实百度早已对此有过说明,但藏在一篇不起眼的文章中不引人注目,导致依然非常多的人不清楚该如何操作。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1601
    • 屏蔽快照
  • 网站排名不稳定如何处理

    网站排名不稳定

    网站排名不稳定如何处理,多数情况站长会比较喜欢新网站内容运营,相对来说只需要做基础的工作内容建设,而且效果很快就能看到。老网站基础内容已经做得差不多,排名不稳定也不知如何下手,让很多站长们头疼,那么老网站排名不稳定,SEO优化该如何处理?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1461
    • 网站排名不稳定
  • SEO优化必须掌握的robots文件协议

    robots,SEO优化

    robots文件使用来申明网站哪些内容允许搜索引擎抓取,哪些内容禁止搜索引抓取的;正确的设置robots可以提升搜索引擎对网站的抓取效率,同时避免不必要的内容被抓取展现。但在实际运用中很多站点没有正确的使用robots导致了一些问题,今天潘某人SEO就为大家揭秘下robots的注意点。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 966
    • robots
    • SEO优化
  • 域名变更对于seo排名的影响

    域名变更,seo排名

    站点在实际运营的过程中,偶尔会因为一些因素需要变更网站的域名的情况,大家都知道网站的一次改版,都可能会对seo产生严重的影响,何况是网站域名的变更,对于seo优化的影响就不言而喻了。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 725
    • 域名变更
    • seo排名
  • SEO网站站外优化怎么做

    SEO站外优化

    SEO站外优化,如果你只是认为发发外链,那么恭喜你错了!站外SEO优化可以分为两个维度:通过站外内容链接的发布,通过外链给网站引流或者带来权重上的导入;另一个维度则是品牌的曝光建设,看似和SEO没有直接的关系,反而比前者更加重要。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 744
    • SEO站外优化
  • 别让网站打开速度毁了SEO优化

    网站速度

    在当今的数字时代,网站的打开速度不仅关乎用户体验,更是影响搜索引擎优化(SEO)效果的关键因素。潘某人SEO带你探讨网页加载速度对SEO的影响,并提如何提高你网站的速度。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 286
    • 网站速度
  • 如何使用Canonical标签解决重复页

    Canonical标签

    Canonical标签用于告知搜索引擎,重复页面中哪个页面是规范页,有利于集中权重提升排名,但是总体来说Canonical标签能不用!就不用了

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2091
    • Canonical标签
  • 百度闪电算法,移动页打开速度

    百度闪电算法

    2017年10月初,“闪电算法”上线,移动搜索页面首屏加载时间将影响搜索排名。移动网页首屏在2秒之内完成打开的,在移动搜索下将获得提升页面评价优待,获得流量倾斜;同时,在移动搜索页面首屏加载非常慢(3秒及以上)的网页将会被打压。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2286
    • 百度闪电算法