答应我以后别这么设计网址路径,迟早会后悔!

讲这个话题的起源,今天有人跟我痛诉网站几千的内容,全部被爬走了,一个不剩的那种;然后看了看他的站点,我只能说不爬你爬谁。大家猜猜为什么,我相信很多人的站点都会有这个问题,并且我见过的很多企业站点都有这个通病。

自增连号的URL

一切的始作俑者便是网站采用了自增连号的URL,这种URL结构通常是数据库中自动生成的,每当添加新的内容或记录时,数据库就会自动为新记录分配一个比前一个记录大1的ID,这个ID就是URL的一部分,页面地址(URL)是按照数字顺序连续增加的。

https://www.chateach.com/seo/1
https://www.chateach.com/seo/2
https://www.chateach.com/seo/3
1
2
3

如上所示,也许网站有很多不同栏目目录,但是栏目下的详情页之间是连续自增的数字;这种网址结构潘某人SEO认为实在所有设计中最不可取的形式。但是早期很多的建站都是这种形式,导致很多企业站点也是这种设计;毕竟那时候爬虫没有这么泛滥,也没有这种预防。

带来的危害

这个危害可以说是毁灭性的打击,你想一下你日以继夜付出的心血的内容,只要暴力枚举ID就可以在短短几分钟内,给你爬的渣都不剩。然后如果你站点的全站还不理想的情况下,对方还能比你先收录。
网址url路径
虽然说只要可以被访问的内容都是无法避免被爬虫的命运,但这种自增式的网址还比是家里门开着,别人可以随便进来;把门关上,就有门槛了,不会开锁撬门爬窗户的就进不来。像如果网站的网址是无序的,如果没有爬取路径的内容就很难被直接或者暴力枚举爬取。这里的无序不是简单的ID数字变为无序,简单的数字无序,位数又比较短无非是暴力枚举的久一点而已。

如何解决问题

解决这个问题其实也很简单,只要将网址最后的ID部分,变为无序不可预测的就可以避免被暴力枚举爬取。实现这种功能的方案有很多,比如:UUID、时间戳与随机数结合、哈希值等,网上有很多方法。
如果你坚持看到这里就有福了,潘某人SEO把自己在使用的方法分享给大家,采用数据库自增ID+随机字符串的形式,结构为N未纯数字+N位纯小写字母。

方案实现方法

与原来自增ID的形式时,还是同样的没增加一条记录的时候生成一个连续的自增ID,不同的是另外开辟一个新的字段,存储一个随机生成的字符串,如下所示。

https://www.chateach.com/seo/1000ssddsxdfxc
https://www.chateach.com/seo/1001xdfrfdd
https://www.chateach.com/seo/1002ftyhcef
1
2
3

其中自增ID部分,连续数字推荐从1000或者10000开始,而不是从1开始,否则位数太短影响整体的安全性;随机字符串部分,以随机的纯小写字母,并且位数也可以随机。长度随机很关键,在同样长度下,位数可在保证长度的情况下,一定程度的位数随机可以进一步增加破解难度,推荐字符串长度6-8位左右。
记住一定要自增ID和字符串作为两个字段来实现,然后在网址路径在访问的时候,通过正则差分数字部分,进行数据查询,然后在根据结果来校对字符串部分,这样可以获得最高的索引效率。

方案实现优势:

自增ID在每次插入新记录时都会自动递增,从而确保每个记录都有一个唯一的标识符。生成和管理相对简单,不需要额外的逻辑或算法。自增ID通常是连续的整数,连续的ID值可以减少索引的碎片,提高查询性能。数字的索引速度通常比字母(或字符)要快,尤其当内容数量增多比较庞大的时候,这种差异会变大。

最后,注意一点内容的列表展示一定的页码数量就够了,对于正常用户没人会通过不断翻页的形式访问,对于搜索引擎可以采用sitemap的方式提交,记住sitemap的路径复杂点,不要对外公开。这样对于这部分没有直接显示入口的网址链接,可以在正常收录的情况下,又能避免站点页面被大范围的爬取。快去转给你的还在使用的自增ID作为路径的冤种朋友把。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seoxinde/1087dsssxsx

相关文章

  • 百度spider对新链接重要程度判断

    百度spider

    影响Baiduspider正常抓取的原因,下面就要说说Baiduspider的一些判断原则了。在建库环节前,Baiduspider会对页面进行初步内容分析和链接分析,通过内容分析决定该网页是否需要建索引库,通过链接分析发现更多网页,再对更多网页进行抓取——分析——是否建库&发现新链接的流程。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 531
    • 百度spider
  • 关注网站抓取频率的重要性

    网站抓取频率

    关注网站抓取频率的重要性,每天都会有数以万计的url被搜素引擎抓取,而形成的相互的链接,而构成了我们所看到的互联网,对于网站优化来讲,就是网站抓取频率,那网站抓取频率对seo有哪些重要的意义呢?下面我们来看看为什么要关注网站抓取频率。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2372
    • 网站抓取频率
  • SEO优化快速提升关键词排名

    关键词排名

    对于每一个希望通过搜索引擎优化(SEO)来增加网站曝光率的人来说,如何快速提升网站关键词的排名无疑是最关心的话题。然而,在实际操作中,很多人发现自己长时间的努力并没有带来预期的结果。那么,到底怎样才能有效地提高关键词排名呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 336
    • 关键词排名
  • 手机移动端该怎么优化?

    手机移动端优化

    手机移动端该怎么优化?移动互联网的推出,各位站长也纷纷的挤入了移动化网站,移动网站可以说是一个比一个做的漂亮,那么既然做了移动化的网站,那少不了的自然是SEO优化,在PC端上你的网站可能在某个词上有排名,但在移动搜索引擎上,未必你会优先排名展现。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1341
    • 手机移动端优化
  • 图片懒加载对于SEO优化有影响吗?

    懒加载,延迟加载,seo优化

    网站图片使用懒加载也就是延迟加载技术,对于SEO优化会有不良的负面影响吗?对于图片的延迟加载我们应该如何去看待处理,才能做到兼顾网站的加载速度以及SEO优化的效果呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2057
    • 懒加载
    • 延迟加载
    • seo优化
  • 搜索引擎网页质量判定的标准

    搜索引擎,网页质量

    搜索引擎的根本是什么,是内容是对于用户搜索需求满足,这是搜索引擎最根本的逻辑,后续的一切也都是根据这个方向展开的。根据《百度搜索引擎网页质量白皮书》,站长们在百度搜索引擎优化中如何才能输出高质量内容呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 816
    • 搜索引擎
    • 网页质量
  • 多域名解析到同一网站利于排名吗?

    多域名解析

    多域名解析到同一个网站,个人觉得这种行为就是闲的,没事找事给自己挖坑。多域名解析到同一个网站,首先运营上的意义不大,并且非常容易出现重复收录,权重分散的问题,所以除非有迫不得已的原因,打死都不要去多域名解析到一个网站。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1128
    • 多域名解析
  • 百度抓取频次忽然下降的原因有哪些?

    抓取频次降低的原因

    百度抓取频次忽然下降的原因有哪些?网站抓取频率不知道作为seoer的大家是否有时常的关注,可以说检查我们的网站是否健康,网站的健康程度,关注这些网站上的日常数据也是seo的工作之一,当然看到有一些小伙伴们问道说, 自己的网站突然遇到了网站抓取频率下降这是为什么?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 7243
    • 抓取频次降低的原因
  • 网站目录提交网址,对SEO还有作用吗?

    网站目录,外链,SEO优化

    网站目录是站点外链优化途径之一,那么如今提交网站目录对于SEO优化效果大吗?网站目录作为外链的一种形式,它的效果遵从外链相关的规则和算法。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1179
    • 网站目录
    • 外链
    • SEO优化
  • 移动端网站应该如何优化?

    移动端SEO

    现在互联网的发展越来越倾向移动端,但是还是的分行业,但是大多数的行业都是移动端流量更大,因此对于SEO来说,也要与时俱进的及时的进入移动端SEO优化。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1688
    • 移动端SEO
  • 如何用代码批量查询收录

    批量收录查询代码

    如何用代码批量查询百度360搜狗收录,对于SEO优化来说收录是大家比较关注的,一般使用的查询方法是拿页面的URL或者标题去对应的搜索引擎手动查询收录,但是存在这局限性,今天就来分享一下如何通过代码实现网站收录查询。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1669
    • 批量收录查询代码
  • 百度细雨算法打击什么

    百度算法,细雨算法

    细雨算法主要是正对B2B网站,地址栏内容虚假内容进行打击,对于B2B网站应该如何应对。怎么样的内容才是符合百度细雨算法规范的!

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2487
    • 百度算法
    • 细雨算法
  • 别再这么使用sitemap,可能正在毁掉你的站点

    sitemap,网站地图

    Sitemap(站点地图)本身是一个强大的工具。它以结构化的XML格式,清晰地列出网站上希望搜索引擎索引的所有重要页面链接。对于大型、结构复杂或新上线的网站,提交Sitemap能显著帮助搜索引擎更快地发现站点的内容。然而,任何工具都有其两面性。Sitemap这把“钥匙”,既能打开搜索引擎友好抓取的大门,也可能为不速之客大开方便之门。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 281
    • sitemap
    • 网站地图
  • 跟踪链接导致大量重复页面

    跟踪链接,重复页面

    对网站运营推广的时候我们不得不使用各种跟踪链接达到推广效果的统计作用。但是这类跟踪链接会造成大量的重复页面的出现,导致权重的分散对SEO产生负面的影响,我们如何解决这问题呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1035
    • 跟踪链接
    • 重复页面
  • 移动站SEO优化要点

    移动站优化

    进入2015年之后,很多用户从PC端向移动端迁移.但目前很多企业并没有建设专门的移动站,这也使得移动手机网站的SEO优化工作还处于探索阶段。分享移动站SEO优化的七个方法,具体可以从这几方面来了解(此经验适合新手)

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2145
    • 移动站优化
  • 原创内容如何保护,防止被抄袭爬取

    原创保护,防止抄袭爬取

    如今搜索引发展趋势是内容为王,想要获得好的排名那么优质得内容是必不可少的。面对无数的抄袭者我们如何保护自己不被抄袭、页面被复制、防止爬虫爬取。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1352
    • 原创保护
    • 防止抄袭爬取
  • 网站被K了怎么办?流量暴跌、排名下降如何自救?

    流量,排名,降权

    网站被K的症状有哪些?多久能恢复?又该如何操作自救?在SEO的世界里,每天都像在过山车上——你永远不知道第二天等你的是惊喜还是惊吓。一夜之间,流量归零、关键词排名全掉、收录彻底消失……这就是“网站被K”的真实写照。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 410
    • 流量
    • 排名
    • 降权
  • 如何申请增加百度资源平台提交配额

    api提交,sitemap,百度

    站点没有sitemap权限,api提交额度只有10条,如何申请增加提交配额的方法,如上图所示,是百度搜索资源平台官方提供的配额权限申请的问卷,站点可以通过填写站点信息,以及配额的情况的,对于符合要求的站点会在15个工作日内赋予相应的资源配额。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1814
    • api提交
    • sitemap
    • 百度