MD5算法原理、适用场景

文章目录

- 前言
- [什么是 MD5？](#什么是 MD5？)
- [MD5 的原理](#MD5 的原理)
- [MD5 用在哪？](#MD5 用在哪？)
- Java代码实现md5
- [MD5 安全吗？](#MD5 安全吗？)

前言

最近在做项目时在文件上传模块碰到 MD5 这个算法，于是想着写篇博客总结下。

什么是 MD5？

MD5（Message-Digest Algorithm 5），1991 年由 Ronald Rivest 设计，是一种哈希算法。它能把任意长度的数据，压缩成一个固定的 128 位摘要值（通常表示为 32 位十六进制字符串）。

举个例子：

复制代码

"hello"       → 5d41402abc4b2a76b9719d911017c592
"hello!"      → 9ae107b59e0f3d40ef4b9e3b36a8c74e
"hello world" → 5eb63bbbe01eeed093cb22bb8f5acdc3

哪怕只多了一个感叹号，输出就完全不同------这就是所谓的"雪崩效应"。

MD5 的原理

整个过程分四步：

填充数据：把输入数据补齐到 512 位的整数倍，末尾 64 位记录原始长度
初始化寄存器：设置 4 个 32 位寄存器（A/B/C/D），初始值是固定常量
分块压缩：对每个 512 位的数据块进行 4 轮、每轮 16 步的非线性运算
拼接输出 ：把 4 个寄存器的最终值拼起来，得到 128 位的哈希值

不需要记住细节，理解"任意输入 → 固定输出 → 不可逆"这个核心就够了。

MD5 用在哪？

MD5 一般出现在文件上传流程中：

复制代码

用户发起上传请求
    ↓
前端计算文件的 MD5 值
    ↓
发送 MD5 到后端，检查是否已存在相同文件
    ↓
已存在 → 秒传（直接关联，不重复上传）
不存在 → 走分片上传流程

秒传就是：上传前先算文件的 MD5 发给服务端，服务端一查发现"这个文件我已经有了"，直接返回成功，把已有文件关联到你的账号下。用户感觉"秒"就传完了，实际上一个字节都没传。

这里 MD5 充当了文件的"指纹"。两个文件内容完全一样，MD5 值就一样，服务端就能判断"这个文件我已经有了"，省去重复上传和重复向量化的开销。

Java代码实现md5

Java 中计算 MD5 很简单：

java 复制代码

MessageDigest md = MessageDigest.getInstance("MD5");
//MessageDigest 是 Java 提供的消息摘要工具类，在 java.security 包下
//getInstance("MD5") 是静态工厂方法，传入算法名称，返回对应的算法实例。也可以传 "SHA-256" 等其他算法

byte[] hashBytes = md.digest(fileBytes);

//fileBytes 是文件的原始字节数组（byte[]）
//digest() 方法做了两件事：把数据喂进去 + 计算最终哈希值
//返回的 hashBytes 是一个长度为 16 的 byte[]（128 位 / 8 = 16 字节）

// 转成 32 位十六进制字符串
StringBuilder sb = new StringBuilder();
for (byte b : hashBytes) {
    sb.append(String.format("%02x", b));
}
String md5 = sb.toString();

这里的%02x 的含义：
%x：以十六进制格式输出
02：不足 2 位时前面补 0（比如 0a 而不是 a）

每个 byte 转成 2 位十六进制，16 个字节就是 32 位字符串

MD5 安全吗？

用来做文件校验没问题，用来做安全加密不行。

2004 年，王小云教授证明了 MD5 存在碰撞攻击------可以构造两个不同的输入产生相同的 MD5 值。

场景	推荐算法
文件完整性校验	MD5 够用
密码存储	bcrypt / Argon2
数字签名	SHA-256 / SHA-3
区块链	SHA-3

在文件上传中，MD5 一般只是用来判断"文件是否重复"，不涉及安全对抗场景，所以完全够用。