答应我以后别这么设计网址路径,迟早会后悔!

讲这个话题的起源,今天有人跟我痛诉网站几千的内容,全部被爬走了,一个不剩的那种;然后看了看他的站点,我只能说不爬你爬谁。大家猜猜为什么,我相信很多人的站点都会有这个问题,并且我见过的很多企业站点都有这个通病。

自增连号的URL

一切的始作俑者便是网站采用了自增连号的URL,这种URL结构通常是数据库中自动生成的,每当添加新的内容或记录时,数据库就会自动为新记录分配一个比前一个记录大1的ID,这个ID就是URL的一部分,页面地址(URL)是按照数字顺序连续增加的。

https://www.chateach.com/seo/1
https://www.chateach.com/seo/2
https://www.chateach.com/seo/3
1
2
3

如上所示,也许网站有很多不同栏目目录,但是栏目下的详情页之间是连续自增的数字;这种网址结构潘某人SEO认为实在所有设计中最不可取的形式。但是早期很多的建站都是这种形式,导致很多企业站点也是这种设计;毕竟那时候爬虫没有这么泛滥,也没有这种预防。

带来的危害

这个危害可以说是毁灭性的打击,你想一下你日以继夜付出的心血的内容,只要暴力枚举ID就可以在短短几分钟内,给你爬的渣都不剩。然后如果你站点的全站还不理想的情况下,对方还能比你先收录。
网址url路径
虽然说只要可以被访问的内容都是无法避免被爬虫的命运,但这种自增式的网址还比是家里门开着,别人可以随便进来;把门关上,就有门槛了,不会开锁撬门爬窗户的就进不来。像如果网站的网址是无序的,如果没有爬取路径的内容就很难被直接或者暴力枚举爬取。这里的无序不是简单的ID数字变为无序,简单的数字无序,位数又比较短无非是暴力枚举的久一点而已。

如何解决问题

解决这个问题其实也很简单,只要将网址最后的ID部分,变为无序不可预测的就可以避免被暴力枚举爬取。实现这种功能的方案有很多,比如:UUID、时间戳与随机数结合、哈希值等,网上有很多方法。
如果你坚持看到这里就有福了,潘某人SEO把自己在使用的方法分享给大家,采用数据库自增ID+随机字符串的形式,结构为N未纯数字+N位纯小写字母。

方案实现方法

与原来自增ID的形式时,还是同样的没增加一条记录的时候生成一个连续的自增ID,不同的是另外开辟一个新的字段,存储一个随机生成的字符串,如下所示。

https://www.chateach.com/seo/1000ssddsxdfxc
https://www.chateach.com/seo/1001xdfrfdd
https://www.chateach.com/seo/1002ftyhcef
1
2
3

其中自增ID部分,连续数字推荐从1000或者10000开始,而不是从1开始,否则位数太短影响整体的安全性;随机字符串部分,以随机的纯小写字母,并且位数也可以随机。长度随机很关键,在同样长度下,位数可在保证长度的情况下,一定程度的位数随机可以进一步增加破解难度,推荐字符串长度6-8位左右。
记住一定要自增ID和字符串作为两个字段来实现,然后在网址路径在访问的时候,通过正则差分数字部分,进行数据查询,然后在根据结果来校对字符串部分,这样可以获得最高的索引效率。

方案实现优势:

自增ID在每次插入新记录时都会自动递增,从而确保每个记录都有一个唯一的标识符。生成和管理相对简单,不需要额外的逻辑或算法。自增ID通常是连续的整数,连续的ID值可以减少索引的碎片,提高查询性能。数字的索引速度通常比字母(或字符)要快,尤其当内容数量增多比较庞大的时候,这种差异会变大。

最后,注意一点内容的列表展示一定的页码数量就够了,对于正常用户没人会通过不断翻页的形式访问,对于搜索引擎可以采用sitemap的方式提交,记住sitemap的路径复杂点,不要对外公开。这样对于这部分没有直接显示入口的网址链接,可以在正常收录的情况下,又能避免站点页面被大范围的爬取。快去转给你的还在使用的自增ID作为路径的冤种朋友把。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seoxinde/1087dsssxsx

相关文章

  • SEO删除旧内容,对排名有影响吗?

    旧内容删除排名变化

    SEO删除旧内容,对排名有影响吗?SEO人员开始研究“以旧换新”或者直接删除旧内容的策略。前期页面排名一定是会有影响,可能下降,也可能上升,但从长期的角度来衡量,

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2041
    • 旧内容删除排名变化
  • 搜索引擎的基础原理知识

    搜索引擎原理

    搜索引擎的基础知识,从抓取、过滤筛选、建立索引及输出结果,这几个步骤的工作原理。对于SEO优化来说如果连搜索引擎的基本工作原理都不清楚,这样是一件非常糟糕的事情。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1456
    • 搜索引擎原理
  • SEO网站优化如何进行内容建设

    SEO网站内容建设

    网站优化建设内容,不在于原创还是伪原创,抓住用户的需求,提供最优价值的内容才是根本。保持稀缺性,是网站排名优化的核心手段!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1921
    • SEO网站内容建设
  • seo优化行业的现状

    seo优化的现状

    seo优化行业的现状解析。随着付费推广的竞争 越来越激烈,广告成本也是指数级的上升,这也一定的程度会让大家重视成本相对更低的SEO优化。但是SEO优化行业却充满着不和谐的因素!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1396
    • seo优化的现状
  • 【图解】C位直达后台操作说明

    C位直达

    如何在C位直达活动页查看规则、领取词包、上传内容以及查看收益,有兴趣参与C位直达的小伙伴们,千万不能错过这篇干货文章哦!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1597
    • C位直达
  • SEO原创内容真的正确吗?大多人都搞错了重点!

    SEO原创

    “做SEO,必须原创!”这句话你是不是已经听了无数遍?从搜索引擎官方到SEO大神,都在强调“原创内容有利于排名”。于是,无数人开始熬夜写稿、花钱请写手、甚至用AI批量生成“原创内容”……但结果呢?流量没涨,排名没动,投入的时间和金钱却打了水漂。因为你可能从一开始就搞错了重点——原创 ≠ 有价值,而SEO真正需要的,是价值,不是“原创”这个标签。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 581
    • SEO原创
  • 如何快速的生成sitemap网站地图

    sitemap,如何制作,网站地图

    如何快速的生成sitemap网站地图,我们不能依靠工具来实现,因为逻辑上就走不通,其实通过数据库可以快速有效的生成最有价值的sitemap网站地图。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1964
    • sitemap
    • 如何制作
    • 网站地图
  • 网站被恶意泛解析的解决方法

    恶意泛解析解决

    什么是泛域名解析,网站被恶意泛解析的解决方法。通过site对某网站进行查询的时候,发现突然多了许多的陌生二级域名页面,经过网上大量搜索才知道,这都是因为域名被恶意泛解析后导致的后果。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1608
    • 恶意泛解析解决
  • 网站被K?别慌!一文看懂症状、原因及恢复全攻略!

    网站降权

    SEO是一项惊心动魄的工作,你永远不知道第二天迎接你的是惊喜还是惊吓。尤其是当你的网站突然“消失”在搜索引擎中,流量断崖式下跌时,那种焦虑和无助感几乎每个站长都曾经历过。今天潘某人SEO就来聊一个让无数站长夜不能寐的话题——网站被K。到底什么是网站被K?有哪些典型症状?如何判断自己是否被K?被K后该如何处理?又该如何预防?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 607
    • 网站降权
  • 快去看看API主动推送被降额了吗

    API主动推送,降额

    最近在论坛里看到很多站点的百度API主动推送额度被下调到了100条。这向站长们发送了什么样的信息呢?又意味着什么?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2648
    • API主动推送
    • 降额
  • 百度几种链接推送方式对比

    百度链接推送

    网站内容如果想要实现快速收录,那么及时的提交新内容链接是直接有效的方法。对于百度搜索来说链接提交方式是比较丰富的,大致分类主动提交、自动提交、手动提交和sitemap提交,那么你知道这四种提交方式有什么区别呢?哪张方式可以更快使内容收录呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2004
    • 百度链接推送
  • 域名变更对于seo排名的影响

    域名变更,seo排名

    站点在实际运营的过程中,偶尔会因为一些因素需要变更网站的域名的情况,大家都知道网站的一次改版,都可能会对seo产生严重的影响,何况是网站域名的变更,对于seo优化的影响就不言而喻了。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 917
    • 域名变更
    • seo排名
  • 带Nofollow标签的外链还有价值吗?

    nofollow,外链

    在 SEO(搜索引擎优化)的世界里,“外链”一直被视为网站权重和排名的重要因素之一。然而,当这些外链被加上rel="nofollow"标签时,这样的链接还有价值吗? 带Nofollow标签的外链毫无价值吗?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 535
    • nofollow
    • 外链
  • 字体字号对用户体验的影响

    字体,用户体验

    多年前,麻省理工学院的研究人员已经证实字体影响我们的感受:差的字体使人无意识的反感,好的字体使我们感到高兴。如果字体能够影响我们的情绪,那同样会影响用户体验。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1427
    • 字体
    • 用户体验
  • 域名带www和不带www哪个更有利于SEO

    www,SEO优化

    你的网站带www嘛,今天来探究下网站带www和不带www哪个更利于SEO优化。我们分为两种情况来分析,一种域名下有多个站点,还有一种就是域名下只有一个站点。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1111
    • www
    • SEO优化
  • 权重是什么意思

    权重是什么意思

    很多人对于网站权重的意思存在着一定的误解,其实搜索引擎官网并不存在所谓的权重,这里的权重其实指的是第三方工具比如站长工具、爱站等平台给到的一个等级划分,对于网站权重还是需要理性的看待,没有必要过分的追逐。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1616
    • 权重是什么意思
  • SEO关键词布局优化方案

    SEO优化方案

    网站的关键字布局一直是大多数seoer注重的一个关键方面。关键字布局与用户的需求相关。然后,根据对有效竞争对手的分析,总体规划布局是合理的。你对网站的关键词布局出了问题怎么办?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1697
    • SEO优化方案
  • 网页内容大小影响收录吗

    网页收录,网页大小

    收录是站长们关心的问题,那么你觉得网页的大小会影响页面的收录吗?大多数的观点是认为字数一定要多,字数太少会导致内容质量低下,不容易收录。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1113
    • 网页收录
    • 网页大小