深入理解短链服务:原理、设计与实现全解析

TinyURL 是全球最早提供短链服务的网站,被视为短链系统的鼻祖。如今,国内的主流互联网公司也纷纷推出了自己的短链平台,比如新浪的 t.cn、百度的 dwz.cn、腾讯的 url.cn 等。

随着业务复杂度的提升和数据量的剧增,短链服务不仅是链接优化的手段,更是技术架构中不可忽视的一环。本文将系统地解析短链服务的设计理念、实现方式和技术细节。

短链的优势

短链的存在并非只是为了"好看",它在实际业务中具备多重价值:

  • 避免链接长度限制:部分平台对链接长度有限制,使用短链可规避此问题。
  • 界面简洁,易于传播:短链视觉上更整洁,适合社交媒体、短信等场景。
  • 增强安全性:可隐藏真实参数,防止信息泄露。
  • 利于统一管理与统计:通过短链服务后台可以统计访问量、用户行为等关键数据。

短链的基本原理

短链服务的本质是 基于重定向的跳转机制。以新浪为例,通过命令行执行:

bash 复制代码
curl -i http://t.cn/A6ULvJho

可看到服务返回了 302 Found 的响应,并带有 Location 头部,指向原始链接地址。为了兼容部分不支持重定向的客户端,服务器还返回了一段带 <a> 标签的 HTML。

整个流程如下图所示:

短链生成策略

数字编码与 62 进制转换

据估算,全球网页数量已超过 580 亿,而 Java 中 int 的取值范围为 2^32 ≈ 43 亿,long 为 2^64,明显更安全但也更浪费空间。因此,实际短链生成一般采用 62 进制编码,即由:

  • 10 个数字(0-9)
  • 26 个小写字母(a-z)
  • 26 个大写字母(A-Z)

组成的共 62 个字符,组合 8 位长度可覆盖 62^8 ≈ 3521 亿,足以满足全球使用需求。

哈希算法法

对原始链接进行哈希处理是一种经典方法。选用合适的哈希算法能有效降低碰撞概率,推荐使用 MurmurHash

  • 非加密型哈希函数
  • 高性能、低碰撞率
  • 被 Redis、Memcached、Lucene 等广泛使用

处理碰撞的简单方式是追加自定义字符串直到不重复,如图所示:

发号器方式

通过统一发号器生成 ID,再将其编码为短链也是一种高效策略。例如:

  • 第一条链接:https://tinyurl.com/1
  • 第二条链接:https://tinyurl.com/2

实现发号器的主流方式包括:

  1. Redis 自增:高性能、轻量级,但需处理持久化与高可用问题。
  2. MySQL 自增主键:实现简单、可靠,适合中小型场景。
  3. Snowflake 算法:分布式、高性能,但依赖机器时钟,需防止时钟回拨问题。

此外,发号器还应支持"相同条件返回相同短链"的能力,以支持统计分析。例如基于用户、来源、渠道等维度区分短链。

短链数据存储

短链生成后需要持久化存储,常见的存储方案包括关系型数据库与 NoSQL 数据库。以下为基于 MySQL 的建表示例:

mysql 复制代码
CREATE TABLE IF NOT EXISTS tiny_url
(
    sid                INT AUTO_INCREMENT PRIMARY KEY,
    create_time        DATETIME  DEFAULT CURRENT_TIMESTAMP NULL,
    update_time        TIMESTAMP DEFAULT CURRENT_TIMESTAMP NULL ON UPDATE CURRENT_TIMESTAMP,
    version            INT       DEFAULT 0                 NULL COMMENT '版本号',
    tiny_url           VARCHAR(10)                         NULL COMMENT '短链',
    original_url       TEXT                                NOT NULL COMMENT '原始链接',
    creator_ip         INT       DEFAULT 0                 NOT NULL,
    creator_user_agent TEXT                                NOT NULL,
    instance_id        INT       DEFAULT 0                 NOT NULL,
    state              TINYINT   DEFAULT 1                 NULL COMMENT '-1无效 1有效'
);

表中记录了创建者的 IP、User-Agent、实例 ID 等字段,为后续的统计分析和数据追踪提供支持。

短链的请求与跳转

用户访问短链后的基本流程如下:

复制代码
请求短链 → 布隆过滤器 → 缓存(如 Redis)→ 数据库

其中布隆过滤器可过滤掉不存在的短链请求,防止缓存击穿;缓存用于存储热点短链;数据库作为最终兜底。

使用 301 还是 302?

短链服务通常返回 302 临时重定向,而非 301 永久重定向,原因如下:

  • 301:浏览器会缓存跳转地址,后续不再请求短链服务器,影响访问统计。
  • 302:每次都请求服务端,有利于实时统计与分析。

虽然 302 会略微增加服务端压力,但如今硬件资源充足,为了数据价值,这点开销是值得的。

总结

短链服务虽小,但背后蕴含了诸多系统设计考量。无论是哈希策略、发号器设计、存储方案还是跳转方式,都是构建高可用、高性能服务的重要组成部分。一个设计合理的短链系统,不仅能提升用户体验,也能为业务带来关键数据支持。

参考资料

  • 短 URL 系统是怎么设计的?
  • 系统设计系列之如何设计一个短链服务

本文由博客一文多发平台 OpenWrite 发布!

相关推荐
程序员清风3 分钟前
猿辅导二面:线上出现的OOM是如何排查的?
java·后端·面试
yaoxin5211237 分钟前
291. Java Stream API - 从正则表达式创建 Stream
java·开发语言
BHXDML12 分钟前
Java 设计模式详解
java·开发语言·设计模式
BD_Marathon13 分钟前
MyBatis核心配置文件之mappers
java·数据库·mybatis
余瑜鱼鱼鱼19 分钟前
Java数据结构:从入门到精通(十三)
java·开发语言
没有bug.的程序员34 分钟前
Java内存模型(JMM)深度解析:从 volatile 到 happens-before 的底层机制
java·开发语言·并发编程·volatile·内存模型·jmm·happens-before
雨中飘荡的记忆35 分钟前
Java注解校验实战
java
心丑姑娘39 分钟前
怎么理解ClickHouse的向量化执行
java·服务器·clickhouse
寻星探路42 分钟前
【算法进阶】滑动窗口与前缀和:从“和为 K”到“最小覆盖子串”的极限挑战
java·开发语言·c++·人工智能·python·算法·ai