首页 >  SEO >  SEO心得 >  正文

搜索引擎内容原创性之分词技术与文本粒度

 作者:潘某人SEO
881

seo优化中内容的原创性是非常重要的,那么对于搜索引擎是如何判断内容的原创性呢?首先就是时间先后上,同样的内容最先被搜索引擎抓取到则为原创;其次就是内容的稀缺性。很多站点为了获得原创性又不想花费过高的时间人力成本就会选择为伪原创的方式,但是其实这种方法意义并不是很大。

伪原创的识别

伪原创的可行性取决于是否可以被搜索引擎识别到,这个就和今天的主题“文本粒度”有密不可分的关系,先说结论伪原创可以被识别。伪原创一般的手法就是,内容中同义词替换,顺序颠倒,但是这些行为并不会影响文本粒度。

什么是文本粒度

文本粒度是一个复杂的概念,在讲粒度之前首先必须明白(Query)分词技术,人与机器处理文档时最大的区别,人是具备思维能力的,是通过对整个文档含义的理解;但是机器是无法理解任何的内容,只能通过算法来分辨文本内容。

分词技术

分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。简单的讲就是分词技术会把整个文档分割成无数个短语。分词技术现今非常成熟了,分为3种技术。

字符串匹配的分词方法

这是种常用的分词法,百度就是用此类分词。字符串匹配的分词方法,又分为3种分词方法。正向最大匹配法、反向最大匹配法、反向最大匹配法、双向最大匹配法。

词义分词法

就是一种机器语音判断的分词方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,还不成熟,处在测试阶段。

统计分词法

根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符,这样来分词。

文本粒度的作用

分词的时候是需要一定逻辑的,分词不能乱分,比如分得过细会导致对于内容识别失去意义。举例,关键词“潘某人SEO优化”,可以分为“潘某人,seo,优化”,这种分词是比较合理的,但是如果分为“潘某,人,s,e,o,优、化”这种显然就失去了意义。
而文本可粒度则正是分词时候的一个度的衡量标准,粒度是衡量文本所含信息量的大小。文本含信息量多,粒度就大,反之就小。有了这个原则,我们就很容易判断文本粒度大小了。

什么是文本的粒度

什么是文本的粒度?,让我们先看看以下几组词汇,可以帮助大家更好的理解本文粒度:

孤独、倒霉、粒子、嚣张
奶茶、冰球、鞋垫、旱冰鞋
打球、跳绳、炒菜、登山
苹果笔记本电脑、IPTV机顶盒、潘某人SEO优化
大头儿子小头爸爸、家有儿女、一个人的精彩

像“孤独”,“倒霉”,“粒子”,“嚣张”这些词,虽然有两个字组成,但是仅表达一个意思,再分割就失去意义了,这些词的粒度是小的。而“冰球”,“奶茶”等词,是由简单词合成的,虽然也可以明确表明一定含义,但是进行查分之后还是存在含义的如“奶”和“茶”,“冰”和“球”。这类词,粒度稍微大一些。而“苹果笔记本电脑”,“IPTV机顶盒”这样的词,粒度就更大了。
文本的粒度
还有一类比较特殊的词,尽管所含字数很多,但其实只表达一个意思,如“大头儿子小头爸爸”,“家有儿女”这样的电影、电视剧的名称,粒度是很小的。将此类词继续分割在搜索上的意义更低。
所以文本粒度的大小和文本的长度没有决定性关系,除去一些较长有特殊含义的短语,文本内容越长粒度就越小。

伪原创意义不大

所以基于粒度和分词技术,伪原创内容的意义有限,简单的内容调换删减,近似同意替换,基本上无法改变整片文章的粒度。就比如微信公众号的原创文章,只有当你把原创文章修改添加内容篇幅足够大的时候才可以不被识别到。
而伪原创原本就是为了降低时间人力成本,深度伪原创的时间成本并不低,或者增强机器伪原创的度,则会因为替换的内容太多导致整体的语义不同,失去了阅读上的价值。
基于这也是搜索引擎实现内容恶意采集,内容拼接,低质量内容识别的基本逻辑原理。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seoxinde/832
相关文章
  • 百度索引量与收录量,两者有什么不同

    百度索引量,收录量

    在讲索引量和收录量的时候,就不得不反问下大家你真知道什么是收录吗?可以说大多数人对于收录的认知是错误,存在索引和收录概念混淆的情况。

    1182
    • 百度索引量
    • 收录量
  • H标签的使用规范

    H标签使用规范

    Heading标签也叫做H标签,HTML语言里一共有六种大小的heading 标签,是网页html 中对文本标题所进行的着重强调的一种标签,在SEO优化中有着至关重要的影响,它能让页面的层级关系更清楚,让搜索引擎更好地抓取和分析出页面的主题内容等等。

    3150
    • H标签使用规范
  • 什么是闭站保护,无法申请闭站保护怎么办?

    闭站保护,seo

    闭站保护是什么,闭站保护对于站点有什么作用;但是如果站点无法申请闭站保护又要如何应对呢?今天潘某人SEO就以一次闭站的经历分享来告诉大家如何正常的处理闭站保护。

    701
    • 闭站保护
    • seo
  • 内容防抓取原创保护的方法

    原创保护,防抓取,防采集

    ​站点的内容经常被恶意采集爬取,辛辛苦苦码的原创内容被人轻而易举的强取豪夺,被采集可以说是另站长们最痛疼的事情之一了,今天潘某人SEO就与大家分享若干方法,期望可以对大家有帮助。

    691
    • 原创保护
    • 防抓取
    • 防采集
  • ETag提升sitemap抓取速度频次

    ETag,sitemap,链接提交

    sitemap快速更新抓取,ETag提升sitemap抓取速度频次,sitemap是大家提交url的主要途径之一,但是sitemap最大的一个问题就是抓取速度比较慢,

    1159
    • ETag
    • sitemap
    • 链接提交
  • seo网站收录不稳定是什么原因

    收录不稳定原因

    对于网站优化来说网站收录收录的稳定性有着极高的关注,毕竟收录对于网站关键排名来说是一个直接的基础保证,没有足够的收录量就无法保证流量的稳定的增加。但是在优化网站的时候我们经查遇到的情况是好不容易收录的内容,没有过多长时间又全部掉了。对于这种网站收录不稳定的原因有哪些,这里列出一些主要的可能的原因。

    875
    • 收录不稳定原因
  • 网站地图sitemap的注意事项

    sitemap注意事项,网站地图

    链接提交是站长们每天都会去做的事情,sitemap提交的注意事项,虽然说sitemap提交收录速度不是最快的,但是功能却是最强大的。

    900
    • sitemap注意事项
    • 网站地图
  • 域名转移怎么操作

    域名转移怎么操作

    域名对于网站优化来说是十分重要的,因此保持域名的稳定对于SEO优化来说至关重要。我们应该对自己的域名进行集中管理。那么这里就要涉及到域名的转移过户,这种情况分为两种。一种是账户转移,一种是夸服务商转移。

    2038
    • 域名转移怎么操作
  • 网站不收录的原因及如何处理应对

    收录

    网站不收录问题不管是新站还是老站都会面临的问题,那么当网站遇到收录问题的时候应该如何应对,如何找到问题所在呢?

    621
    • 收录
  • 域名泛解析对SEO优化的影响

    SEO泛域名解析

    域名泛解析对SEO优化的影响?泛解析一般是指很多二级域名都可以去访问我们的主站,搜索引擎一旦爬取这些域名,肯定是会现大量重复内容,这是毫无疑问;重复内容过多对网站优化肯定是不好的,因为可以做一些设置。

    2562
    • SEO泛域名解析
  • 爬行、抓取、索引、收录的区别

    爬行,抓取,索引,收录

    收录对于站长来说是在熟悉不过的了,但是很多人对于收录还是存在一些理解上的偏差,要正确的理解收录,那么必须要对搜索引擎的爬行、抓取、索引、收录几个概念有正确的认知,对于掌握搜索引擎的收录过程是先决条件。爬行、抓取、索引、收录,是搜索引擎的收录内容的一个流程。

    1831
    • 爬行
    • 抓取
    • 索引
    • 收录
  • 百度时间因子的重要性及其使用方法

    百度时间因子

    正确规范的使用百度时间因子,对于网站的展现排名至关重要,尤其是实效性内容效果尤为的突出。什么是百度落地页时间因子,如何正确的使用他们。

    3006
    • 百度时间因子
  • 如何实现内容发布自动推送链接

    自动推送链接,api推送,网站收录

    php实现网站内容发布的同时调用百度api接口对网站内容进行自动的同步链接推送。保证网站原创内容的权益。

    1023
    • 自动推送链接
    • api推送
    • 网站收录
  • 什么样的外链才是高质量外链?

    高质量外链标准

    外链建设是SEO优化中重要的一项,可以有效快速的提升网站的抓取数量,其实是对于新站更加有意义,可以快速的提升网站的权重,但是随着搜索引擎算法不断的迭代,也推出了打击外链买卖作弊的行为,比如百度搜索引擎就有绿萝算法。

    912
    • 高质量外链标准
  • 搜索引擎蜘蛛爬虫名大全

    搜索蜘蛛大全

    对于seo们清楚掌握主流搜索引擎的爬虫名称十分的关键,掌握各大搜索引擎蜘蛛爬虫,对我们开展网站SEO优化具有挺大作用;作者搜集了各大搜索引擎的蜘蛛爬虫UA,便于你需要时查看。

    1934
    • 搜索蜘蛛大全
  • 为什么搜索结果和点进去看的内容不一样

    User-Agent,搜索引擎

    有时候会遇到这种情况,在搜索引擎上找到了需要的内容,但是点击进去网站之后,发现和搜索引擎中的检索结果无关,甚至有的页面连主题都不相关。为什么会有这种情况出现呢?

    1765
    • User-Agent
    • 搜索引擎
  • robots协议不生效怎么处理

    robots

    为什么明明已经设正确设置的robots的屏蔽规则,但是就是不生效导致不该收录的内容被收录了呢?

    637
    • robots
  • 同一台服务器多个网站会影响SEO吗?

    服务器多个网站

    对小型站点使用独立服务器的成本会有点高,尤其是网站前期流量不大的时候,使用虚拟服务器就足够应付了。同一个服务器部署很多站点,是否回被判断为群站被惩罚,导致SEO优化效果不佳呢?

    767
    • 服务器多个网站
-- 这已经是底线了,看看别的把! --