文章目录
-
- 前言
- [什么是 MD5?](#什么是 MD5?)
- [MD5 的原理](#MD5 的原理)
- [MD5 用在哪?](#MD5 用在哪?)
- Java代码实现md5
- [MD5 安全吗?](#MD5 安全吗?)
前言
最近在做项目时在文件上传模块碰到 MD5 这个算法,于是想着写篇博客总结下。
什么是 MD5?
MD5(Message-Digest Algorithm 5),1991 年由 Ronald Rivest 设计,是一种哈希算法。它能把任意长度的数据,压缩成一个固定的 128 位摘要值(通常表示为 32 位十六进制字符串)。
举个例子:
"hello" → 5d41402abc4b2a76b9719d911017c592
"hello!" → 9ae107b59e0f3d40ef4b9e3b36a8c74e
"hello world" → 5eb63bbbe01eeed093cb22bb8f5acdc3
哪怕只多了一个感叹号,输出就完全不同------这就是所谓的"雪崩效应"。
MD5 的原理
整个过程分四步 :
- 填充数据:把输入数据补齐到 512 位的整数倍,末尾 64 位记录原始长度
- 初始化寄存器:设置 4 个 32 位寄存器(A/B/C/D),初始值是固定常量
- 分块压缩:对每个 512 位的数据块进行 4 轮、每轮 16 步的非线性运算
- 拼接输出 :把 4 个寄存器的最终值拼起来,得到 128 位的哈希值

不需要记住细节,理解"任意输入 → 固定输出 → 不可逆"这个核心就够了。
MD5 用在哪?
MD5 一般出现在文件上传流程中:
用户发起上传请求
↓
前端计算文件的 MD5 值
↓
发送 MD5 到后端,检查是否已存在相同文件
↓
已存在 → 秒传(直接关联,不重复上传)
不存在 → 走分片上传流程
秒传就是:上传前先算文件的 MD5 发给服务端,服务端一查发现"这个文件我已经有了",直接返回成功,把已有文件关联到你的账号下。用户感觉"秒"就传完了,实际上一个字节都没传。
这里 MD5 充当了文件的"指纹"。两个文件内容完全一样,MD5 值就一样,服务端就能判断"这个文件我已经有了",省去重复上传和重复向量化的开销。
Java代码实现md5
Java 中计算 MD5 很简单:
java
MessageDigest md = MessageDigest.getInstance("MD5");
//MessageDigest 是 Java 提供的消息摘要工具类,在 java.security 包下
//getInstance("MD5") 是静态工厂方法,传入算法名称,返回对应的算法实例。也可以传 "SHA-256" 等其他算法
byte[] hashBytes = md.digest(fileBytes);
//fileBytes 是文件的原始字节数组(byte[])
//digest() 方法做了两件事:把数据喂进去 + 计算最终哈希值
//返回的 hashBytes 是一个长度为 16 的 byte[](128 位 / 8 = 16 字节)
// 转成 32 位十六进制字符串
StringBuilder sb = new StringBuilder();
for (byte b : hashBytes) {
sb.append(String.format("%02x", b));
}
String md5 = sb.toString();
这里的%02x 的含义:
%x:以十六进制格式输出
02:不足 2 位时前面补 0(比如 0a 而不是 a)
每个 byte 转成 2 位十六进制,16 个字节就是 32 位字符串
MD5 安全吗?
用来做文件校验没问题,用来做安全加密不行。
2004 年,王小云教授证明了 MD5 存在碰撞攻击------可以构造两个不同的输入产生相同的 MD5 值。
| 场景 | 推荐算法 |
|---|---|
| 文件完整性校验 | MD5 够用 |
| 密码存储 | bcrypt / Argon2 |
| 数字签名 | SHA-256 / SHA-3 |
| 区块链 | SHA-3 |
在文件上传中 ,MD5 一般只是用来判断"文件是否重复",不涉及安全对抗场景,所以完全够用。