版权归作者所有,如有转发,请注明文章出处:cyrus-studio.github.io/blog/
MD5是一种哈希函数,用于将任意长度的数据映射为一个固定长度的哈希值。它由 Ron Rivest 在 1991 年设计,是继 MD4 之后的改进版本。
MD5 的基本特征:
-
固定长度输出:将任意长度的数据转换为 128 位(16 字节) 的哈希值,通常以 32 位十六进制 字符串表示。
-
不可逆性:无法从哈希值反推原始数据。
-
雪崩效应:输入的微小变化会导致哈希值完全不同。
-
抗碰撞性较弱:不同输入产生相同哈希值的概率较低,但已存在有效的碰撞攻击。
-
计算速度快:采用简单的位运算,处理速度快,适合大数据量。
标准 MD5
标准 MD5 的 C++ 实现如下:
md5.h
objectivec
#ifndef __MD5_INCLUDE__
/* typedef a 32-bit type */
#ifdef _LP64
typedef unsigned int UINT4;
typedef int INT4;
#else
typedef unsigned long UINT4;
typedef long INT4;
#endif
#define _UINT4_T
/* Data structure for MD5 (Message-Digest) computation */
typedef struct {
UINT4 i[2]; /* number of _bits_ handled mod 2^64 */
UINT4 buf[4]; /* scratch buffer */
unsigned char in[64]; /* input buffer */
unsigned char digest[16]; /* actual digest after MD5Final call */
} MD5_CTX;
void MD5_Init (MD5_CTX *mdContext);
void MD5_Update (MD5_CTX *mdContext, unsigned char *inBuf, unsigned int inLen);
void MD5_Final (unsigned char hash[], MD5_CTX *mdContext);
#define __MD5_INCLUDE__
#endif /* __MD5_INCLUDE__ */
md5.cpp
css
#include <string>
#include "md5.h"
/* forward declaration */
static void Transform(UINT4 *buf, UINT4 *in);
static unsigned char PADDING[64] = {
0x80, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00
};
/* F, G, H and I are basic MD5 functions */
#define F(x, y, z) (((x) & (y)) | ((~x) & (z)))
#define G(x, y, z) (((x) & (z)) | ((y) & (~z)))
#define H(x, y, z) ((x) ^ (y) ^ (z))
#define I(x, y, z) ((y) ^ ((x) | (~z)))
/* ROTATE_LEFT rotates x left n bits */
#define ROTATE_LEFT(x, n) (((x) << (n)) | ((x) >> (32-(n))))
/* FF, GG, HH, and II transformations for rounds 1, 2, 3, and 4 */
/* Rotation is separate from addition to prevent recomputation */
#define FF(a, b, c, d, x, s, ac) \
{(a) += F ((b), (c), (d)) + (x) + (UINT4)(ac); \
(a) = ROTATE_LEFT ((a), (s)); \
(a) += (b); \
}
#define GG(a, b, c, d, x, s, ac) \
{(a) += G ((b), (c), (d)) + (x) + (UINT4)(ac); \
(a) = ROTATE_LEFT ((a), (s)); \
(a) += (b); \
}
#define HH(a, b, c, d, x, s, ac) \
{(a) += H ((b), (c), (d)) + (x) + (UINT4)(ac); \
(a) = ROTATE_LEFT ((a), (s)); \
(a) += (b); \
}
#define II(a, b, c, d, x, s, ac) \
{(a) += I ((b), (c), (d)) + (x) + (UINT4)(ac); \
(a) = ROTATE_LEFT ((a), (s)); \
(a) += (b); \
}
#ifdef __STDC__
#define UL(x) x##U
#else
#define UL(x) x
#endif
/* The routine MD5_Init initializes the message-digest context
mdContext. All fields are set to zero.
*/
void MD5_Init(MD5_CTX *mdContext) {
mdContext->i[0] = mdContext->i[1] = (UINT4) 0;
/* Load magic initialization constants.
*/
mdContext->buf[0] = (UINT4) 0x67452301;
mdContext->buf[1] = (UINT4) 0xefcdab89;
mdContext->buf[2] = (UINT4) 0x98badcfe;
mdContext->buf[3] = (UINT4) 0x10325476;
}
/* The routine MD5Update updates the message-digest context to
account for the presence of each of the characters inBuf[0..inLen-1]
in the message whose digest is being computed.
*/
void MD5_Update(MD5_CTX *mdContext, unsigned char *inBuf, unsigned int inLen) {
UINT4 in[16];
int mdi;
unsigned int i, ii;
/* compute number of bytes mod 64 */
mdi = (int) ((mdContext->i[0] >> 3) & 0x3F);
/* update number of bits */
if ((mdContext->i[0] + ((UINT4) inLen << 3)) < mdContext->i[0])
mdContext->i[1]++;
mdContext->i[0] += ((UINT4) inLen << 3);
mdContext->i[1] += ((UINT4) inLen >> 29);
while (inLen--) {
/* add new character to buffer, increment mdi */
mdContext->in[mdi++] = *inBuf++;
/* transform if necessary */
if (mdi == 0x40) {
for (i = 0, ii = 0; i < 16; i++, ii += 4)
in[i] = (((UINT4) mdContext->in[ii + 3]) << 24) |
(((UINT4) mdContext->in[ii + 2]) << 16) |
(((UINT4) mdContext->in[ii + 1]) << 8) |
((UINT4) mdContext->in[ii]);
Transform(mdContext->buf, in);
mdi = 0;
}
}
}
/* The routine MD5Final terminates the message-digest computation and
ends with the desired message digest in mdContext->digest[0...15].
*/
void MD5_Final(unsigned char hash[], MD5_CTX *mdContext) {
UINT4 in[16];
int mdi;
unsigned int i, ii;
unsigned int padLen;
/* save number of bits */
in[14] = mdContext->i[0];
in[15] = mdContext->i[1];
/* compute number of bytes mod 64 */
mdi = (int) ((mdContext->i[0] >> 3) & 0x3F);
/* pad out to 56 mod 64 */
padLen = (mdi < 56) ? (56 - mdi) : (120 - mdi);
MD5_Update(mdContext, PADDING, padLen);
/* append length in bits and transform */
for (i = 0, ii = 0; i < 14; i++, ii += 4)
in[i] = (((UINT4) mdContext->in[ii + 3]) << 24) |
(((UINT4) mdContext->in[ii + 2]) << 16) |
(((UINT4) mdContext->in[ii + 1]) << 8) |
((UINT4) mdContext->in[ii]);
Transform(mdContext->buf, in);
/* store buffer in digest */
for (i = 0, ii = 0; i < 4; i++, ii += 4) {
mdContext->digest[ii] = (unsigned char) (mdContext->buf[i] & 0xFF);
mdContext->digest[ii + 1] =
(unsigned char) ((mdContext->buf[i] >> 8) & 0xFF);
mdContext->digest[ii + 2] =
(unsigned char) ((mdContext->buf[i] >> 16) & 0xFF);
mdContext->digest[ii + 3] =
(unsigned char) ((mdContext->buf[i] >> 24) & 0xFF);
}
memcpy(hash, mdContext->digest, 16);
}
/* Basic MD5 step. Transforms buf based on in.
*/
static void Transform(UINT4 *buf, UINT4 *in) {
UINT4 a = buf[0], b = buf[1], c = buf[2], d = buf[3];
/* Round 1 */
#define S11 7
#define S12 12
#define S13 17
#define S14 22
FF (a, b, c, d, in[0], S11, UL(3614090360)); /* 1 */
FF (d, a, b, c, in[1], S12, UL(3905402710)); /* 2 */
FF (c, d, a, b, in[2], S13, UL(606105819)); /* 3 */
FF (b, c, d, a, in[3], S14, UL(3250441966)); /* 4 */
FF (a, b, c, d, in[4], S11, UL(4118548399)); /* 5 */
FF (d, a, b, c, in[5], S12, UL(1200080426)); /* 6 */
FF (c, d, a, b, in[6], S13, UL(2821735955)); /* 7 */
FF (b, c, d, a, in[7], S14, UL(4249261313)); /* 8 */
FF (a, b, c, d, in[8], S11, UL(1770035416)); /* 9 */
FF (d, a, b, c, in[9], S12, UL(2336552879)); /* 10 */
FF (c, d, a, b, in[10], S13, UL(4294925233)); /* 11 */
FF (b, c, d, a, in[11], S14, UL(2304563134)); /* 12 */
FF (a, b, c, d, in[12], S11, UL(1804603682)); /* 13 */
FF (d, a, b, c, in[13], S12, UL(4254626195)); /* 14 */
FF (c, d, a, b, in[14], S13, UL(2792965006)); /* 15 */
FF (b, c, d, a, in[15], S14, UL(1236535329)); /* 16 */
/* Round 2 */
#define S21 5
#define S22 9
#define S23 14
#define S24 20
GG (a, b, c, d, in[1], S21, UL(4129170786)); /* 17 */
GG (d, a, b, c, in[6], S22, UL(3225465664)); /* 18 */
GG (c, d, a, b, in[11], S23, UL(643717713)); /* 19 */
GG (b, c, d, a, in[0], S24, UL(3921069994)); /* 20 */
GG (a, b, c, d, in[5], S21, UL(3593408605)); /* 21 */
GG (d, a, b, c, in[10], S22, UL(38016083)); /* 22 */
GG (c, d, a, b, in[15], S23, UL(3634488961)); /* 23 */
GG (b, c, d, a, in[4], S24, UL(3889429448)); /* 24 */
GG (a, b, c, d, in[9], S21, UL(568446438)); /* 25 */
GG (d, a, b, c, in[14], S22, UL(3275163606)); /* 26 */
GG (c, d, a, b, in[3], S23, UL(4107603335)); /* 27 */
GG (b, c, d, a, in[8], S24, UL(1163531501)); /* 28 */
GG (a, b, c, d, in[13], S21, UL(2850285829)); /* 29 */
GG (d, a, b, c, in[2], S22, UL(4243563512)); /* 30 */
GG (c, d, a, b, in[7], S23, UL(1735328473)); /* 31 */
GG (b, c, d, a, in[12], S24, UL(2368359562)); /* 32 */
/* Round 3 */
#define S31 4
#define S32 11
#define S33 16
#define S34 23
HH (a, b, c, d, in[5], S31, UL(4294588738)); /* 33 */
HH (d, a, b, c, in[8], S32, UL(2272392833)); /* 34 */
HH (c, d, a, b, in[11], S33, UL(1839030562)); /* 35 */
HH (b, c, d, a, in[14], S34, UL(4259657740)); /* 36 */
HH (a, b, c, d, in[1], S31, UL(2763975236)); /* 37 */
HH (d, a, b, c, in[4], S32, UL(1272893353)); /* 38 */
HH (c, d, a, b, in[7], S33, UL(4139469664)); /* 39 */
HH (b, c, d, a, in[10], S34, UL(3200236656)); /* 40 */
HH (a, b, c, d, in[13], S31, UL(681279174)); /* 41 */
HH (d, a, b, c, in[0], S32, UL(3936430074)); /* 42 */
HH (c, d, a, b, in[3], S33, UL(3572445317)); /* 43 */
HH (b, c, d, a, in[6], S34, UL(76029189)); /* 44 */
HH (a, b, c, d, in[9], S31, UL(3654602809)); /* 45 */
HH (d, a, b, c, in[12], S32, UL(3873151461)); /* 46 */
HH (c, d, a, b, in[15], S33, UL(530742520)); /* 47 */
HH (b, c, d, a, in[2], S34, UL(3299628645)); /* 48 */
/* Round 4 */
#define S41 6
#define S42 10
#define S43 15
#define S44 21
II (a, b, c, d, in[0], S41, UL(4096336452)); /* 49 */
II (d, a, b, c, in[7], S42, UL(1126891415)); /* 50 */
II (c, d, a, b, in[14], S43, UL(2878612391)); /* 51 */
II (b, c, d, a, in[5], S44, UL(4237533241)); /* 52 */
II (a, b, c, d, in[12], S41, UL(1700485571)); /* 53 */
II (d, a, b, c, in[3], S42, UL(2399980690)); /* 54 */
II (c, d, a, b, in[10], S43, UL(4293915773)); /* 55 */
II (b, c, d, a, in[1], S44, UL(2240044497)); /* 56 */
II (a, b, c, d, in[8], S41, UL(1873313359)); /* 57 */
II (d, a, b, c, in[15], S42, UL(4264355552)); /* 58 */
II (c, d, a, b, in[6], S43, UL(2734768916)); /* 59 */
II (b, c, d, a, in[13], S44, UL(1309151649)); /* 60 */
II (a, b, c, d, in[4], S41, UL(4149444226)); /* 61 */
II (d, a, b, c, in[11], S42, UL(3174756917)); /* 62 */
II (c, d, a, b, in[2], S43, UL(718787259)); /* 63 */
II (b, c, d, a, in[9], S44, UL(3951481745)); /* 64 */
buf[0] += a;
buf[1] += b;
buf[2] += c;
buf[3] += d;
}
std::string bytesToHex(const uint8_t *bytes, size_t length) {
char hexStr[33];
for (size_t i = 0; i < length; i++) {
sprintf(&hexStr[i * 2], "%02x", bytes[i]);
}
hexStr[32] = '\0';
return hexStr;
}
参考:cs.android.com/android/pla...
kotlin 层声明 md5 native 方法
kotlin
package com.cyrus.example.md5
class MD5Utils {
companion object {
// 加载 native 库
init {
System.loadLibrary("md5")
}
// 声明 native 静态方法
@JvmStatic
external fun md5(input: String): String
}
}
在 cpp 中实现 native 方法,调用 MD5_Init、MD5_Update、MD5_Final 完成 MD5 的计算并返回结果。
scss
extern "C"
JNIEXPORT jstring JNICALL
Java_com_cyrus_example_md5_MD5Utils_md5(JNIEnv *env, jclass, jstring input) {
const char *inputChars = env->GetStringUTFChars(input, nullptr);
if (!inputChars) return nullptr;
MD5_CTX ctx;
MD5_Init(&ctx);
MD5_Update(&ctx, (unsigned char *) inputChars, strlen(inputChars));
uint8_t digest[16];
MD5_Final(digest, &ctx);
env->ReleaseStringUTFChars(input, inputChars);
std::string md5Hash = bytesToHex(digest, 16);
return env->NewStringUTF(md5Hash.c_str());
}
效果如下:
MD5Init
初始化上下文,包括计数器和状态缓冲区。
魔数初始化:这四个固定的 32 位数用于 MD5 的初始状态。
我们可以修改这四个魔数的初始值实现 MD5 算法的变形,比如修改如下:
scss
void MD5_Init2(MD5_CTX *mdContext) {
mdContext->i[0] = mdContext->i[1] = (UINT4) 0;
mdContext->buf[0] = (UINT4) 0xaa452301;
mdContext->buf[1] = (UINT4) 0xbbcdab89;
mdContext->buf[2] = (UINT4) 0xccbadcfe;
mdContext->buf[3] = (UINT4) 0xdd325476;
}
增加 changeMD5Init 方法
scss
extern "C"
JNIEXPORT jstring JNICALL
Java_com_cyrus_example_md5_MD5Utils_changeMD5Init(JNIEnv *env, jclass, jstring input) {
const char *inputChars = env->GetStringUTFChars(input, nullptr);
if (!inputChars) return nullptr;
MD5_CTX ctx;
MD5_Init2(&ctx);
MD5_Update(&ctx, (unsigned char *) inputChars, strlen(inputChars));
uint8_t digest[16];
MD5_Final(digest, &ctx);
env->ReleaseStringUTFChars(input, inputChars);
std::string md5Hash = bytesToHex(digest, 16);
return env->NewStringUTF(md5Hash.c_str());
}
效果如下:
MD5_Update
每次调用 MD5_Update 时,它会将数据追加到 ctx->buffer。MD5_Update 可以多次调用。
我们可以通过调用 MD5_Update 去拼接自定义的字符串实现 MD5 变形,比如:
scss
extern "C"
JNIEXPORT jstring JNICALL
Java_com_cyrus_example_md5_MD5Utils_changeMD5Update(JNIEnv *env, jclass, jstring input) {
const char *inputChars = env->GetStringUTFChars(input, nullptr);
if (!inputChars) return nullptr;
MD5_CTX ctx;
MD5_Init(&ctx);
MD5_Update(&ctx, (unsigned char *) "cyrus", strlen(inputChars));
MD5_Update(&ctx, (unsigned char *) "studio", strlen(inputChars));
MD5_Update(&ctx, (unsigned char *) inputChars, strlen(inputChars));
uint8_t digest[16];
MD5_Final(digest, &ctx);
env->ReleaseStringUTFChars(input, inputChars);
std::string md5Hash = bytesToHex(digest, 16);
return env->NewStringUTF(md5Hash.c_str());
}
- 相当于 md5(cyrus+studio+inputChars)
效果如下:
宏 FF、GG、HH、II
在 MD5 中,FF、GG、HH 和 II 是四个核心的轮函数(Round Functions),它们负责对数据块进行不同形式的混淆和非线性操作。每一轮都包含 16 次操作,共 64 次。
FF 宏(Round 1)
scss
#define FF(a, b, c, d, x, s, ac) \
{(a) += F ((b), (c), (d)) + (x) + (UINT4)(ac); \
(a) = ROTATE_LEFT ((a), (s)); \
(a) += (b); \
}
参数解释:
-
a, b, c, d:四个 32 位寄存器变量。
-
x:当前数据块中的 32 位输入。
-
s:左旋转的位数。
-
ac:加法常数(T[i])。
F函数:
scss
#define F(x, y, z) (((x) & (y)) | ((~x) & (z)))
逻辑解析:
-
F(x, y, z) 实现了一个选择函数。
-
如果 x 的某位为 1,选择 y;否则选择 z。
-
这是一个条件赋值的模拟:x ? y : z。
作用:
-
FF 是一种条件性操作,它将输入数据和常数通过逻辑函数 F 混淆后,再执行旋转和累加操作。
-
Round 1 的特点是对输入数据的直接非线性处理。
GG 宏(Round 2)
scss
#define GG(a, b, c, d, x, s, ac) \
{(a) += G ((b), (c), (d)) + (x) + (UINT4)(ac); \
(a) = ROTATE_LEFT ((a), (s)); \
(a) += (b); \
}
G函数:
scss
#define G(x, y, z) (((x) & (z)) | ((y) & (~z)))
逻辑解析:
-
G(x, y, z) 是一种少见的位运算,选择不同的输入进行混淆。
-
如果 z 的某位为 0,选择 x;否则选择 y。
作用:
-
GG 在第二轮中使用了不同的逻辑函数 G,进一步打乱数据。
-
它的特点是强调输入数据与寄存器的非线性关系。
HH 宏(Round 3)
scss
cpp复制编辑#define HH(a, b, c, d, x, s, ac) \
{(a) += H ((b), (c), (d)) + (x) + (UINT4)(ac); \
(a) = ROTATE_LEFT ((a), (s)); \
(a) += (b); \
}
H函数:
scss
cpp复制编辑#define H(x, y, z) ((x) ^ (y) ^ (z))
逻辑解析:
-
H(x, y, z) 是简单的按位异或操作。
-
异或操作具有混淆性强的特点,不可逆。
作用:
-
HH 使用异或操作对数据进行进一步的随机化。
-
它减少了数据之间的线性关系,增强了哈希的安全性。
II 宏(Round 4)
scss
#define II(a, b, c, d, x, s, ac) \
{(a) += I ((b), (c), (d)) + (x) + (UINT4)(ac); \
(a) = ROTATE_LEFT ((a), (s)); \
(a) += (b); \
}
I函数:
scss
#define I(x, y, z) ((y) ^ ((x) | (~z)))
逻辑解析:
-
I(x, y, z) 通过 OR 和 NOT 操作形成复杂的非线性映射。
-
这种逻辑是为了确保输入数据对输出的影响最大化。
作用:
-
II 是最后一轮变换,用于进一步打乱数据并确保不可逆性。
-
它将前几轮的结果进一步混淆,确保哈希值的独特性。
四轮计算:
-
Round 1:使用 FF,主要作用是与原始输入数据紧密结合。
-
Round 2:使用 GG,引入更多的非线性关系。
-
Round 3:使用 HH,通过异或增加数据的混淆性。
-
Round 4:使用 II,确保最终输出的不可预测性。
修改宏的常数实现 MD5 变形
我们可以通过修改宏的常数实现 MD5 变形,比如我这里改了 FF 中 1、2、3的常数:
css
/* Round 1 */
#define S11 7
#define S12 12
#define S13 17
#define S14 22
FF (a, b, c, d, in[0], S11, UL(1114090360)); /* 1 */
FF (d, a, b, c, in[1], S12, UL(2205402710)); /* 2 */
FF (c, d, a, b, in[2], S13, UL(336105819)); /* 3 */
FF (b, c, d, a, in[3], S14, UL(3250441966)); /* 4 */
FF (a, b, c, d, in[4], S11, UL(4118548399)); /* 5 */
FF (d, a, b, c, in[5], S12, UL(1200080426)); /* 6 */
FF (c, d, a, b, in[6], S13, UL(2821735955)); /* 7 */
FF (b, c, d, a, in[7], S14, UL(4249261313)); /* 8 */
FF (a, b, c, d, in[8], S11, UL(1770035416)); /* 9 */
FF (d, a, b, c, in[9], S12, UL(2336552879)); /* 10 */
FF (c, d, a, b, in[10], S13, UL(4294925233)); /* 11 */
FF (b, c, d, a, in[11], S14, UL(2304563134)); /* 12 */
FF (a, b, c, d, in[12], S11, UL(1804603682)); /* 13 */
FF (d, a, b, c, in[13], S12, UL(4254626195)); /* 14 */
FF (c, d, a, b, in[14], S13, UL(2792965006)); /* 15 */
FF (b, c, d, a, in[15], S14, UL(1236535329)); /* 16 */
其他不变,效果如下:
OLLVM MD5
通过 OLLVM 混淆 C/C++ 代码。
关于 OLLVM 的编译和移植到 NDK 可以参考下面的文章:
比如,给 md5 方法添加下面注解启用虚假控制流
less
__attribute__((annotate("bcf")))
scss
extern "C"
JNIEXPORT jstring JNICALL
__attribute__((annotate("bcf"))) Java_com_cyrus_example_md5_MD5Utils_changeConstant(JNIEnv *env, jclass, jstring input) {
const char *inputChars = env->GetStringUTFChars(input, nullptr);
if (!inputChars) return nullptr;
MD5_CTX ctx;
MD5_Init_(&ctx);
MD5_Update_(&ctx, (unsigned char *) inputChars, strlen(inputChars));
uint8_t digest[16];
MD5_Final_(digest, &ctx);
env->ReleaseStringUTFChars(input, inputChars);
std::string md5Hash = bytesToHex(digest, 16);
return env->NewStringUTF(md5Hash.c_str());
}
经过混淆后的 md5 方法反汇编视图
完整源码
完整源码地址:github.com/CYRUS-STUDI...