首页 >  SEO >  SEO心得 >  正文

答应我以后别这么设计网址路径,迟早会后悔!

 作者:潘某人SEO
189

讲这个话题的起源,今天有人跟我痛诉网站几千的内容,全部被爬走了,一个不剩的那种;然后看了看他的站点,我只能说不爬你爬谁。大家猜猜为什么,我相信很多人的站点都会有这个问题,并且我见过的很多企业站点都有这个通病。

自增连号的URL

一切的始作俑者便是网站采用了自增连号的URL,这种URL结构通常是数据库中自动生成的,每当添加新的内容或记录时,数据库就会自动为新记录分配一个比前一个记录大1的ID,这个ID就是URL的一部分,页面地址(URL)是按照数字顺序连续增加的。

https://www.chateach.com/seo/1
https://www.chateach.com/seo/2
https://www.chateach.com/seo/3
1
2
3

如上所示,也许网站有很多不同栏目目录,但是栏目下的详情页之间是连续自增的数字;这种网址结构潘某人SEO认为实在所有设计中最不可取的形式。但是早期很多的建站都是这种形式,导致很多企业站点也是这种设计;毕竟那时候爬虫没有这么泛滥,也没有这种预防。

带来的危害

这个危害可以说是毁灭性的打击,你想一下你日以继夜付出的心血的内容,只要暴力枚举ID就可以在短短几分钟内,给你爬的渣都不剩。然后如果你站点的全站还不理想的情况下,对方还能比你先收录。
网址url路径
虽然说只要可以被访问的内容都是无法避免被爬虫的命运,但这种自增式的网址还比是家里门开着,别人可以随便进来;把门关上,就有门槛了,不会开锁撬门爬窗户的就进不来。像如果网站的网址是无序的,如果没有爬取路径的内容就很难被直接或者暴力枚举爬取。这里的无序不是简单的ID数字变为无序,简单的数字无序,位数又比较短无非是暴力枚举的久一点而已。

如何解决问题

解决这个问题其实也很简单,只要将网址最后的ID部分,变为无序不可预测的就可以避免被暴力枚举爬取。实现这种功能的方案有很多,比如:UUID、时间戳与随机数结合、哈希值等,网上有很多方法。
如果你坚持看到这里就有福了,潘某人SEO把自己在使用的方法分享给大家,采用数据库自增ID+随机字符串的形式,结构为N未纯数字+N位纯小写字母。

方案实现方法

与原来自增ID的形式时,还是同样的没增加一条记录的时候生成一个连续的自增ID,不同的是另外开辟一个新的字段,存储一个随机生成的字符串,如下所示。

https://www.chateach.com/seo/1000ssddsxdfxc
https://www.chateach.com/seo/1001xdfrfdd
https://www.chateach.com/seo/1002ftyhcef
1
2
3

其中自增ID部分,连续数字推荐从1000或者10000开始,而不是从1开始,否则位数太短影响整体的安全性;随机字符串部分,以随机的纯小写字母,并且位数也可以随机。长度随机很关键,在同样长度下,位数可在保证长度的情况下,一定程度的位数随机可以进一步增加破解难度,推荐字符串长度6-8位左右。
记住一定要自增ID和字符串作为两个字段来实现,然后在网址路径在访问的时候,通过正则差分数字部分,进行数据查询,然后在根据结果来校对字符串部分,这样可以获得最高的索引效率。

方案实现优势:

自增ID在每次插入新记录时都会自动递增,从而确保每个记录都有一个唯一的标识符。生成和管理相对简单,不需要额外的逻辑或算法。自增ID通常是连续的整数,连续的ID值可以减少索引的碎片,提高查询性能。数字的索引速度通常比字母(或字符)要快,尤其当内容数量增多比较庞大的时候,这种差异会变大。

最后,注意一点内容的列表展示一定的页码数量就够了,对于正常用户没人会通过不断翻页的形式访问,对于搜索引擎可以采用sitemap的方式提交,记住sitemap的路径复杂点,不要对外公开。这样对于这部分没有直接显示入口的网址链接,可以在正常收录的情况下,又能避免站点页面被大范围的爬取。快去转给你的还在使用的自增ID作为路径的冤种朋友把。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seoxinde/1087dsssxsx
相关文章
  • 爬行、抓取、索引、收录的区别

    爬行,抓取,索引,收录

    收录对于站长来说是在熟悉不过的了,但是很多人对于收录还是存在一些理解上的偏差,要正确的理解收录,那么必须要对搜索引擎的爬行、抓取、索引、收录几个概念有正确的认知,对于掌握搜索引擎的收录过程是先决条件。爬行、抓取、索引、收录,是搜索引擎的收录内容的一个流程。

    1832
    • 爬行
    • 抓取
    • 索引
    • 收录
  • seo网站页面性能优化指南

    seo,页面性能

    seo优化站点必须做的事情,提升网站的加载速度性能。为了更好地提升用户的浏览体验,《移动落地页体验白皮书5.0》中规定:页面的首屏内容应在1秒内加载完成。

    1116
    • seo
    • 页面性能
  • 百度自然搜索排序规则

    排序规则,百度自然搜索

    搜索引擎排名规则应该是广大站点探究的话题,只有对各大搜索引擎的排名规则有所了解,才能更有针对性的做优化,最短时间获得最好的效果。那么那些因素是决定排名的主要的因素,分享下个人的理解。

    912
    • 排序规则
    • 百度自然搜索
  • 百度SEO优化中常见的算法违规有哪些

    seo算法,百度seo

    在不了解算法的情况下进行SEO优化就变得没有了意义,今天以百度搜索引擎为例,在百度SEO优化中常见的算法违规有哪些呢?在不了解算法的情况下进行SEO优化就变得没有了意义,今天以百度搜索引擎为例,在百度SEO优化中常见的算法违规有哪些呢?

    481
    • seo算法
    • 百度seo
  • seo优化行业的现状

    seo优化的现状

    seo优化行业的现状解析。随着付费推广的竞争 越来越激烈,广告成本也是指数级的上升,这也一定的程度会让大家重视成本相对更低的SEO优化。但是SEO优化行业却充满着不和谐的因素!

    1095
    • seo优化的现状
  • 百度移动适配工具如何使用

    移动适配工具

    百度移动适配工具如何使用?百度移动搜索提供“移动适配”服务,如果您同时拥有PC站和手机站,且二者能够在内容上对应,即主体内容完全相同,您可以通过移动适配工具进行对应关系提交。

    2159
    • 移动适配工具
  • 移动站SEO优化要点

    移动站优化

    进入2015年之后,很多用户从PC端向移动端迁移.但目前很多企业并没有建设专门的移动站,这也使得移动手机网站的SEO优化工作还处于探索阶段。分享移动站SEO优化的七个方法,具体可以从这几方面来了解(此经验适合新手)

    1984
    • 移动站优化
  • 如何做好原创内容版权保护

    版权保护,原创内容保护,百度时间因子

    分享如何对站点原创内容的保护,如何查找抄袭站点,如何保留抄袭证据等方法,来保护自己的合法权益。

    1139
    • 版权保护
    • 原创内容保护
    • 百度时间因子
  • 如何才能让移动端获得更好的排名

    移动端排名优化

    移动端获得更好的排名?同PC端的需求一样,收录问题解决后面临的就是排序问题了。在介绍排序原则之前先简休介绍一下移动搜索结果的构成,移动搜索主要有如下几类结果构成:移动页面、转码页面、PC页面。

    1649
    • 移动端排名优化
  • SEO站外优化的方法有哪些?

    seo站外优化

    SEO站外优化的方法有哪些?一个网站如果有比较好的内容,但是客户还是无法看到的话,那么就说明SEO优化没有达到理想的效果。我们做网站首先就是要让用户能够看到,这样才能带来更多的流量,最终实现建设网站的目的就是起到推广或者是营销的效果。

    1202
    • seo站外优化
  • 百度搜索引擎Spider抓取系统的基本框架

    搜索引擎,百度spider

    互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider等。

    537
    • 搜索引擎
    • 百度spider
  • 网站收录狂掉的原因及解决方法

    收录狂掉原因

    很多站长在做网站优化的时候会出现这种情况,原本有收录的文章突然没收录了,甚至网站出现大量的掉收录的情况,这种可能是因为网站死重复内容过多,被降权或者进入沙盒期,所以被收录的文章后面又没了,那么是什么原因造成的呢,又该如何解决呢?

    2139
    • 收录狂掉原因
  • 网站被镜像,如何向百度反馈?

    网站被镜像

    最近收到不少站长反馈被镜像的问题,网站被镜像后,站点流量、关键词都会受到影响,是很多网站深恶痛绝的现象,站长通过禁止正文被粘贴、禁止镜像站IP都无法彻底杜绝被镜像现象。被镜像该如何维权,学堂君整理以下投诉攻略:

    793
    • 网站被镜像
  • 绝对地址和相对地址哪个更利于SEO

    绝对地址,相对地址

    网页链接采用绝对地址和相对地址哪个更利于SEO优化呢?两种类型的链接可以说是各有个的优缺点。传授一个可以结合两者优点的方法,只需要一个简单的定义一个常量就可以实现。

    1437
    • 绝对地址
    • 相对地址
  • SEO优化如何快速提升网站关键词排名

    SEO优化,关键词排名

    对于seo优化最关注的莫过于如何快速的提升网站关键词的排名,但是在实际优化中结果却不符合预期,长时间的优化不断的尝试也没有明显的效果。要快速的获得关键词的排名,笔者认为最关键词的还是需要找对方法,才是一切的关键,否则再多的努力也是徒劳。

    641
    • SEO优化
    • 关键词排名
  • 仿站相似站会对SEO有影响吗

    仿站SEO

    仿站或者类似结构站点会对SEO有影响吗?如何去搭建网站才能更加利于站点的seo优化呢?仿站对于网站优化的利弊有哪些呢?

    600
    • 仿站SEO
  • 百度搜索引擎蜘蛛喜欢什么样的网站结构

    seo网站结构

    百度搜索引擎蜘蛛喜欢什么样的网站结构?希望能在百度获得好的排名、更多优质低价的流量,这个前提就是网站得有好的结构,百度蜘蛛才能顺利、快速的抓取,也就是说网站结构是关键词排名、链接优化、内容优化的前提。

    1532
    • seo网站结构
  • 如何使用Canonical标签解决重复页

    Canonical标签

    Canonical标签用于告知搜索引擎,重复页面中哪个页面是规范页,有利于集中权重提升排名,但是总体来说Canonical标签能不用!就不用了

    1946
    • Canonical标签
-- 这已经是底线了,看看别的把! --