27.短链系统 - 技术栈

短链系统设计完全指南：从核心原理到高并发架构

引言：什么是短链系统？

在现代互联网应用中，短链系统扮演着至关重要的角色。从美团月付账单提醒 到抖音视频分享 ，从电商促销链接 到社交媒体传播，短链不仅提升了链接的可读性和传播性，更是现代互联网基础设施的重要组成部分。

短链系统的核心，其实非常纯粹，它本质上就是一个"映射"服务。可以把它想象成一个网络世界的"通讯录"或"字典"。

"存键"：建立长URL -> 短URL 的映射关系。

"查值"：根据短URL，快速找到并重定向到长URL。

总结一下这个核心观点：

"短链系统 = 一个高效的键值对映射服务 + 一个HTTP重定向机制。"

延申问题：

"这个'字典'具体怎么实现？" （数据库选型、哈希算法、ID生成器）

"这个'词条'（短码）怎么保证唯一又简短？" （Base58、Base62编码、哈希碰撞等）

"如果访问量很大，这个'字典'查得太慢怎么办？" （缓存、CDN、负载均衡）

一、短链系统的核心价值与业务场景

核心价值：

可读性提升：将长URL转换为简短易记的字符串
传播便利：便于在短信、社交媒体等场景分享
数据统计：跟踪链接点击量、用户行为等数据
安全控制：避免直接暴露长URL中的敏感参数

典型应用场景：

java 复制代码

// 1. 短信通知场景（字符数限制）
短信内容："【美团月付】您6月账单467.25元待还，最后还款日为本月8号，查账或立即还款点击短链"

// 2. 社交媒体传播（美观简洁）
微博推文："这个功能太实用了！分享给大家：短链"

// 3. 广告推广（便于统计效果）
广告链接：https://ad.com/campaign?source=wechat&user=123...
转换为：https://dwz.cn/AbC123

二、短链跳转机制：301 vs 302 深度解析

短链系统的核心功能可以概括为两个关键动作：短链跳转 和短链生成。

HTTP 301 永久重定向

工作原理：

http 复制代码

StatusCode: 301 Moved Permanently  
Location: https://original-long-url.com/very-long-path

执行流程：

复制代码

浏览器 → 访问短链 → HTTP 301重定向 → 短链服务器 → 返回长链 → 浏览器缓存映射
后续访问：浏览器直接跳转（不再请求短链服务器）

优势：

极高性能：首次访问后，浏览器缓存映射关系，后续请求不经过短链服务器
减轻负载：极大降低服务器压力，适合高并发场景

劣势：

统计不准：无法准确统计实际点击次数（浏览器缓存导致请求不到达服务器）

HTTP 302 临时重定向

工作原理：

http 复制代码

StatusCode: 302 Found
Location: https://original-long-url.com/very-long-path

执行流程：

复制代码

浏览器 → 访问短链 → HTTP 302重定向 → 短链服务器 → 返回长链 → 浏览器跳转
每次访问：都需要请求短链服务器

优势：

精准统计：每次点击都能被服务器记录，便于数据分析
灵活控制：可基于每次请求做个性化跳转（如A/B测试）

劣势：

性能开销：每次访问都需要短链服务参与，服务器压力大

选择策略：业务场景决定技术方案

场景	推荐方案	理由
高并发电商促销	HTTP 301	减少服务器压力，保证系统稳定性
广告效果统计	HTTP 302	需要精确统计每次点击数据
社交媒体分享	HTTP 301	传播范围广，并发量难以预估
内部系统通知	HTTP 302	数据统计比性能更重要

三、短链生成方案：四种策略深度对比

短链生成的核心是将长URL映射为短字符串，主要有四种技术方案：

1. 哈希算法方案

java 复制代码

// 使用MD5、SHA等哈希算法生成固定长度字符串
public class HashShortener {
    public String generateShortUrl(String longUrl) {
        String md5 = DigestUtils.md5Hex(longUrl);
        return md5.substring(0, 8); // 取前8位作为短码
    }
}

优点：实现简单，碰撞概率低
缺点：长度固定，可能存在哈希冲突

2. 自增序列+进制转换方案

java 复制代码

// 数据库自增ID + 62进制转换
public class SequenceShortener {
    public String generateShortUrl(Long id) {
        // 十进制转62进制
        return Base62.encode(id);
    }
}

// 62进制转换示例：123456 → "w7e"

3. 随机字符串方案

java 复制代码

// 生成UUID并截取前8位
public class RandomShortener {
    public String generateShortUrl() {
        UUID uuid = UUID.randomUUID();
        String uuidString = uuid.toString();
        return uuidString.substring(0, 8); // 如 "a1b2c3d4"
    }
}

4. 预生成方案（企业级方案）

工作流程：

预生成：提前生成大批量短码存入数据库（标记为未使用）
分配使用：来新长链时，分配一个未使用的短码
建立映射：将短码与长URL关联

优势对比：

方案	实现复杂度	碰撞概率	性能	适用规模
哈希算法	简单	较低	高	中小型
自增序列	简单	无	很高	中小型
随机字符串	简单	较低	高	中小型
预生成	复杂	无	极高	大型系统

四、高并发短链系统架构设计

面对每天几亿条短链生成、几百万QPS的访问压力，需要设计高可用的系统架构。

4.1 发号器设计：雪花算法应用

java 复制代码

// 使用雪花算法生成分布式唯一ID
public class SnowflakeIdGenerator {
    public long nextId() {
        // 时间戳(41bit) + 机器ID(10bit) + 序列号(12bit)
        return ((timestamp - twepoch) << timestampLeftShift)
             | (workerId << workerIdShift)
             | sequence;
    }
    
    // 转换为62进制短码
    public String generateShortCode() {
        long id = nextId();
        return Base62.encode(id); // 如 "k3v6bO"
    }
}

优势：每个服务器节点理论可生成4096000个不重复ID，无碰撞风险

4.2 多级缓存架构：Redis + Caffeine

java 复制代码

@Configuration
public class CacheConfig {
    
    @Bean
    public Cache<String, String> shortUrlCache() {
        return Caffeine.newBuilder()
            .maximumSize(100_000)
            .expireAfterWrite(24, TimeUnit.HOURS)
            .build();
    }
    
    @Bean
    public RedisTemplate<String, String> redisTemplate() {
        // Redis集群配置
        return template;
    }
}

@Service  
public class ShortUrlService {
    
    // 读请求：先查本地缓存，再查Redis，最后查数据库
    public String getLongUrl(String shortCode) {
        // 1. 查询Caffeine本地缓存
        String longUrl = caffeineCache.getIfPresent(shortCode);
        if (longUrl != null) return longUrl;
        
        // 2. 查询Redis集群
        longUrl = redisTemplate.opsForValue().get(shortCode);
        if (longUrl != null) {
            caffeineCache.put(shortCode, longUrl); // 回写本地缓存
            return longUrl;
        }
        
        // 3. 查询数据库
        longUrl = database.getLongUrl(shortCode);
        if (longUrl != null) {
            redisTemplate.opsForValue().set(shortCode, longUrl);
            caffeineCache.put(shortCode, longUrl);
        }
        
        return longUrl;
    }
}

4.3 分库分表策略：应对海量数据

java 复制代码

// 基于短码哈希值进行分片
public class ShardingStrategy {
    
    // 数据库分片：hash(shortCode) % dbCount
    public int getDatabaseIndex(String shortCode) {
        int hash = shortCode.hashCode() & Integer.MAX_VALUE; // 确保正数
        return hash % databaseCount;
    }
    
    // 数据表分片：hash(shortCode) / dbCount % tableCount  
    public int getTableIndex(String shortCode) {
        int hash = shortCode.hashCode() & Integer.MAX_VALUE;
        return (hash / databaseCount) % tableCount;
    }
}

// 分片算法示例
数据库ID = 短链码哈希值 % 数据库数量
数据表ID = 短链码哈希值 / 数据库数量 % 数据表数量

4.4 数据生命周期管理

sql 复制代码

-- 热数据：最近3个月的活跃短链
CREATE TABLE short_url_hot (
    id BIGINT PRIMARY KEY,
    short_code VARCHAR(10) UNIQUE,
    long_url TEXT,
    create_time DATETIME,
    access_count INT,
    INDEX idx_short_code(short_code),
    INDEX idx_create_time(create_time)
);

-- 冷数据：3个月前的归档数据  
CREATE TABLE short_url_cold (
    id BIGINT PRIMARY KEY,
    short_code VARCHAR(10),
    long_url TEXT,
    create_time DATETIME,
    archive_time DATETIME
);

五、完整技术选型与架构图

5.1 系统架构图

复制代码

用户请求 → DNS → 负载均衡 → API网关 → 短链服务集群
                          ↓
                   缓存层(Redis集群)
                          ↓  
                   数据库层(分库分表)
                          ↓
                   归档库(历史数据)

5.2 技术栈选型

组件	选型	理由
生成算法	雪花算法 + Base62	无碰撞、分布式友好
缓存层	Redis集群 + Caffeine	多级缓存、高性能
存储层	MySQL分库分表	海量数据存储
重定向	HTTP 301	高并发场景性能优先
监控	Prometheus + Grafana	实时监控告警

六、面试深度问答指南

6.1 基础问题

Q: 短链系统的基本原理是什么？

A: 核心是映射+重定向。通过将长URL映射为短字符串，用户访问短链时服务端返回重定向响应，引导浏览器跳转到原始长URL。

Q: 301和302重定向如何选择？

A: 高并发场景用301减少服务器压力，需要精确统计时用302。电商促销用301，广告跟踪用302。

6.2 进阶问题

Q: 如何解决哈希冲突？

A: 三种方案：1) 重哈希直到不冲突；2) 布隆过滤器预判；3) 使用雪花算法彻底避免冲突。

Q: 如何设计高可用短链系统？

A: 四层保障：1) 多级缓存抗并发；2) 分库分表存数据；3) 集群部署保可用；4) 监控告警及时发现问题。

6.3 架构设计问题

Q: 如果短链点击量突然暴涨100倍怎么办？

A: 应急四步：1) 扩容缓存和计算节点；2) 启用限流保护核心服务；3) 静态化热点短链；4) 降级非核心功能。

总结

短链系统设计是一个典型的业务需求驱动技术架构的案例。从简单的URL重定向，到支撑亿级流量的高可用架构，每一个技术决策都需要基于具体的业务场景。

关键收获：

理解业务场景是技术选型的前提
架构是权衡的艺术：性能vs功能、简单vs复杂
高可用需要层层保障：缓存、分片、监控缺一不可
数据生命周期管理是系统长期健康的关键

掌握短链系统设计，不仅能够应对面试挑战，更能提升对分布式系统设计的整体认知能力，为设计更复杂的互联网系统打下坚实基础。