答应我以后别这么设计网址路径,迟早会后悔!

讲这个话题的起源,今天有人跟我痛诉网站几千的内容,全部被爬走了,一个不剩的那种;然后看了看他的站点,我只能说不爬你爬谁。大家猜猜为什么,我相信很多人的站点都会有这个问题,并且我见过的很多企业站点都有这个通病。

自增连号的URL

一切的始作俑者便是网站采用了自增连号的URL,这种URL结构通常是数据库中自动生成的,每当添加新的内容或记录时,数据库就会自动为新记录分配一个比前一个记录大1的ID,这个ID就是URL的一部分,页面地址(URL)是按照数字顺序连续增加的。

https://www.chateach.com/seo/1
https://www.chateach.com/seo/2
https://www.chateach.com/seo/3
1
2
3

如上所示,也许网站有很多不同栏目目录,但是栏目下的详情页之间是连续自增的数字;这种网址结构潘某人SEO认为实在所有设计中最不可取的形式。但是早期很多的建站都是这种形式,导致很多企业站点也是这种设计;毕竟那时候爬虫没有这么泛滥,也没有这种预防。

带来的危害

这个危害可以说是毁灭性的打击,你想一下你日以继夜付出的心血的内容,只要暴力枚举ID就可以在短短几分钟内,给你爬的渣都不剩。然后如果你站点的全站还不理想的情况下,对方还能比你先收录。
网址url路径
虽然说只要可以被访问的内容都是无法避免被爬虫的命运,但这种自增式的网址还比是家里门开着,别人可以随便进来;把门关上,就有门槛了,不会开锁撬门爬窗户的就进不来。像如果网站的网址是无序的,如果没有爬取路径的内容就很难被直接或者暴力枚举爬取。这里的无序不是简单的ID数字变为无序,简单的数字无序,位数又比较短无非是暴力枚举的久一点而已。

如何解决问题

解决这个问题其实也很简单,只要将网址最后的ID部分,变为无序不可预测的就可以避免被暴力枚举爬取。实现这种功能的方案有很多,比如:UUID、时间戳与随机数结合、哈希值等,网上有很多方法。
如果你坚持看到这里就有福了,潘某人SEO把自己在使用的方法分享给大家,采用数据库自增ID+随机字符串的形式,结构为N未纯数字+N位纯小写字母。

方案实现方法

与原来自增ID的形式时,还是同样的没增加一条记录的时候生成一个连续的自增ID,不同的是另外开辟一个新的字段,存储一个随机生成的字符串,如下所示。

https://www.chateach.com/seo/1000ssddsxdfxc
https://www.chateach.com/seo/1001xdfrfdd
https://www.chateach.com/seo/1002ftyhcef
1
2
3

其中自增ID部分,连续数字推荐从1000或者10000开始,而不是从1开始,否则位数太短影响整体的安全性;随机字符串部分,以随机的纯小写字母,并且位数也可以随机。长度随机很关键,在同样长度下,位数可在保证长度的情况下,一定程度的位数随机可以进一步增加破解难度,推荐字符串长度6-8位左右。
记住一定要自增ID和字符串作为两个字段来实现,然后在网址路径在访问的时候,通过正则差分数字部分,进行数据查询,然后在根据结果来校对字符串部分,这样可以获得最高的索引效率。

方案实现优势:

自增ID在每次插入新记录时都会自动递增,从而确保每个记录都有一个唯一的标识符。生成和管理相对简单,不需要额外的逻辑或算法。自增ID通常是连续的整数,连续的ID值可以减少索引的碎片,提高查询性能。数字的索引速度通常比字母(或字符)要快,尤其当内容数量增多比较庞大的时候,这种差异会变大。

最后,注意一点内容的列表展示一定的页码数量就够了,对于正常用户没人会通过不断翻页的形式访问,对于搜索引擎可以采用sitemap的方式提交,记住sitemap的路径复杂点,不要对外公开。这样对于这部分没有直接显示入口的网址链接,可以在正常收录的情况下,又能避免站点页面被大范围的爬取。快去转给你的还在使用的自增ID作为路径的冤种朋友把。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seoxinde/1087dsssxsx

相关文章

  • 优化标题关键词可以提升排名吗?

    标题关键词,网站排名

    很多人有一个疑问,把需要排名的关键词插入标题是不是就可以提升这个关键词的排名吗?有可能可以提升排名,也有可能非凡没有提升还会有负面作用,说了等于没说哈!这个需要根据实际情况具体分析,不是绝对的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1205
    • 标题关键词
    • 网站排名
  • 新站考核期存在吗?

    新站考核期,沙盒期

    百度搜索引擎存在新站考核沙盒期吗?​很多站长遇到新站优化迟迟没有效果,就把原因归咎于沙盒期,既搜索引擎对于新站有一段时间考核,也就导致网站这段时间不管怎么优化都不会有效果。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1363
    • 新站考核期
    • 沙盒期
  • 如何防止网站被爬虫恶意抓取

    原创保护,爬虫屏蔽

    对于SEO优化来说最讨厌的就是抄袭行为,而爬虫技术则是抄袭手段的升级版,通过一个规则去全网爬取内容进行发布。将抄袭实现了自动化,各个站点面对这种行为也是无可奈何。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1697
    • 原创保护
    • 爬虫屏蔽
  • 如何搭建网站更利于SEO优化

    wordpress,SEO优化,网站搭建

    如何搭建网站才更合适利于SEO,采用cms系统建站、外包建站、还是自己开发呢?内容为王这是一切的根本;技术为辅,但是也同样重要,保证网站基本的稳定性及访问速度。一个优秀的站点需要创造用户的喜爱的内容,通过可以让用户舒服的方式去展示出来。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 814
    • wordpress
    • SEO优化
    • 网站搭建
  • SEO优化一定需要做原创内容吗?

    SEO必须原创吗

    随着时代进步SEO优化可以说是越来越难,现在发展方向是内容为王,支持原创内容。那么对于我们网站优化的时候是不是就只有一条路一定要去更新原创内容呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1945
    • SEO必须原创吗
  • 百度移动适配怎么做

    百度移动适配怎么做

    当我们的网站同时存在pc站点和移动站点的时候,两者都被收录的时候,有的时候搜索引擎不能很好的判断哪个网址是PC端的哪个是移动的端的,就需要进行移动端适配规则提交

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 3009
    • 百度移动适配怎么做
  • 移动网站建设常见问题

    移动网站建设常见问题

    移动站点变得越来越重要,那么我们应该如何做好移动站呢。移动站点和PC站点相辅相成,都是一个互为补充的关系,少了任何一个都是不合理的,那么在移动站点的优化中常见的问题有哪些呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1839
    • 移动网站建设常见问题
  • 用户喜欢的内容的样子,续集

    SEO优化

    SEO优化回归本质是内容的优化,内容的核心是基于用户的需求,那么你了解用户吗?用户真正想要的内容是怎么样呢?当你搞明白了这个问题,相信对于的SEO优化会有很大的帮助。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 964
    • SEO优化
  • 网站多久才不算新站

    网站多久才不算新站

    新站的时间大概在3-6个月不等,判断一个网站是否过了考核期,应当有两个标准,一收录,二排名。有收录,过了一半;有排名了,全过。一般而言,首页和内页的考核期也不同。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2696
    • 网站多久才不算新站
  • 不同域名后缀对于SEO优化的影响

    域名后缀,SEO优化

    域名在注册的时候后缀的选择性还是很大的,对于站长们会有疑虑不同的域名后缀对于seo优化效果是否会产生不同的影响,搜索引擎是否会对不同后缀域名区别对待。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1329
    • 域名后缀
    • SEO优化
  • 什么样的外链才是高质量外链?

    高质量外链标准

    外链建设是SEO优化中重要的一项,可以有效快速的提升网站的抓取数量,其实是对于新站更加有意义,可以快速的提升网站的权重,但是随着搜索引擎算法不断的迭代,也推出了打击外链买卖作弊的行为,比如百度搜索引擎就有绿萝算法。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1181
    • 高质量外链标准
  • 手机移动端该怎么优化?

    手机移动端优化

    手机移动端该怎么优化?移动互联网的推出,各位站长也纷纷的挤入了移动化网站,移动网站可以说是一个比一个做的漂亮,那么既然做了移动化的网站,那少不了的自然是SEO优化,在PC端上你的网站可能在某个词上有排名,但在移动搜索引擎上,未必你会优先排名展现。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1457
    • 手机移动端优化
  • SEO诊断思路:从展现到点击,轻松判断你的网站优化效果!

    SEO诊断,网站优化

    在竞争激烈的互联网时代,网站SEO优化早已成为每个站长和运营者必须掌握的核心技能。然而,很多人做了大量的内容优化、关键词布局,却始终看不到排名提升、流量增长。问题出在哪?你真的会“诊断”网站的SEO效果吗?今天,潘某人SEO从展现与排名出发,教你如何快速判断网站的SEO优化效果。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 478
    • SEO诊断
    • 网站优化
  • SEO网站页面优化的注意事项

    页面SEO优化

    网站的页面优化主要从用户体验的角度和内容质量出发,用户体验在如何的SEO优化中占据的比重越来越大,而内容则是SEO优化的核心。今天就来探索下我们如何才能做好网站页面的优化呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1507
    • 页面SEO优化
  • SEO站内外优化的差异

    站内外优化差异

    SEO优化可以分为站内优化和站外优化,那么在两者之间我们应该重点优化哪一个呢?以及站内的优化的方式各有哪些方面呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2040
    • 站内外优化差异
  • 移动端SEO优化应该怎么做呢?

    移动SEO优化

    移动端SEO优化应该怎么做呢?移动时代已经到来,并没有给人们太多思考时间,而越来越多的用户通过手机进行社交、查看新闻、移动办公及浏览网页等,随着移动营销被推上风口浪尖,众多企业开始转向移动SEO,纷纷试水移动搜索引擎优化。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2132
    • 移动SEO优化
  • 域名转移怎么操作

    域名转移怎么操作

    域名对于网站优化来说是十分重要的,因此保持域名的稳定对于SEO优化来说至关重要。我们应该对自己的域名进行集中管理。那么这里就要涉及到域名的转移过户,这种情况分为两种。一种是账户转移,一种是夸服务商转移。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2337
    • 域名转移怎么操作
  • 如何做到秒收录,保护原创

    保护原创,及时收录

    对于保护原创内容的所有,保证内容的及时收录很重要,有的时候经常会遇到自己幸幸苦苦码出来的内容被别人转载了,还比自己先收录,这边就教大家几个技巧,来有效的防止原创内容被他们抄袭被先收录.....

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2261
    • 保护原创
    • 及时收录