图像相似度识别算法aHash|dHash|PHash

图像相似度识别算法aHash|dHash|PHash

aHash\pHash\dHash 是常用的图像相似度识别算法,原理简单、实现方便。

aHash算法

Hash算法进行图片相似度识别的本质,就是将图片进行Hash转换,生成一组二进制数字,然后通过比较不同图片的Hash值距离找出相似图片。aHash中文叫平均哈希算法,顾名思义,在进行转化过程中将用到像素均值。

基本原理

  1. 缩小尺寸。这样做会去除图片的细节,只保留结构、明暗等信息,目的是统一图片大小,保证后续图片都有相同长度的哈希值,方便距离计算
  2. 灰度化处理。将图片全部转换为统一的灰度值
  3. 计算像素均值。计算像素的灰度平均值
  4. 哈希值计算。将每个像素的灰度,与平均值进行比较。大于或等于平均值,记为1,小于平均值,记为0,由此生成二进制数组
  5. 图片配对,计算汉明距离。距离越近,越相似。当图片缩小为8X8时,通常认为汉明距离小于10的一组图片为相似图片。

优缺点

优点:速度快

缺点:精确度较差,对均值敏感

python实现

python 复制代码
from PIL import Image
import os 
import numpy as np

# 均值哈希算法
def aHash(image):
	image_new = image
	# 计算均值
	avreage = np.mean(image_new)
	hash = []
	for i in range(image.shape[0]):
		for j in range(image.shape[1]):
			if image[i.j] > avreage:
				hash.append(1)
			else:
				hash.append(0)
	return hash

# 计算汉明距离
def Hamming_distance(hash1,hash2):
	num = 0
	for index in range(len(hash1)):
		if hash1[index] != hash2[index]:
			num += 1
	return num

if __name__  == '__main__':
	image1 = Image.open("image1.png")
	image2 = Image.open("image2.png")
	# 缩小尺寸并灰度化
	image1 = np.array(image1.resize((8,8),image.ANTIALIAS).convert('L'),'f')
	image2 = np.array(image2.resize((8,8),image.ANTIALIAS).convert('L'),'f')
	hash1 = aHash(image1)
	hash2 = aHash(image2)
	dist = Hamming_distance(hash1,hash2)
	# 将汉明距离转化为相似度
	similarity = 1 - dist * 1.0 /64
	print('dist is ' + '%d' % dist)
	print('similarity is ' + '%d' % similarity)

dHash算法

dHash中文叫差异哈希算法,在对图片进行哈希转换时,通过左右两个像素大小的比较,得到最终哈希序列

基本原理

  1. 缩小尺寸。将图像缩小为9X8大小,此时照片上有72个像素点
  2. 灰度化处理
  3. 计算差异值,获得最后哈希值(与aHash主要区别)。比较每行左右两个像素,如果左边的像素比右边的像素更亮(左边的像素值大于右边像素值),则记录为1,否则为0。因为每行有9个元素,左右两个一次比较可得8个值,所以8行像素共可以得出64个值,因此此时哈希值为长度是64的0-1序列。
  4. 图片配对,计算汉明距离

优缺点

速度快、判断效果比aHash好

python代码实现

python 复制代码
from PIL import Image
import os 
import numpy as np
import time
# 差异哈希算法
def dHash(image):
	image_new = image
	# 计算平均值
	avreage = np.mean(image_new)
	hash = []
	# 每行前一个像素大于后一个像素为1 相反为0 生成哈希
	for i in range(8):
		for j in range(8):
			if image[i,j] > image[i , j+1]:
				hash.append(1)
			else:
				hash.append(0)
	return hash

# 计算汉明距离
def Hamming_distance(hash1,hash2):
	num = 0
	for index in range(len(hash1)):
		if hash1[index] != hash2[index]:
			num += 1
	return num

if __name__ == '__main__':
	image1 = Image.open('image1.png')
	image2 = Image.open('image2.png')
	start = time.time()
	image1 = np.array(image1.resize((9,8),Image.ANTIALIAS).convert('L'),'f')
	image2 = np.array(image2.resize((9,8),Image.ANTIALIAS).convert('L'),'f')
	hash1 = dHash(image1)
	hash2 = dHash(image2)
	dist = Hamming_distance(hash1,hash2)
	end = time.time()
	# 将距离转换为相似度
	similarity = 1 - dist * 1.0 / 64
	print('dist is '+ '%d' % dist)
	print('similarity is '+'%d'%similarity)
	print('time is ' + '%f'%(end-start))
	
相关推荐
海森大数据8 小时前
AI突破“化学空间困境”:一场药物设计的范式革命
人工智能·语言模型
lgbisha8 小时前
Dify异步接口调用优化实践:解决长时任务处理与网络超时问题
人工智能·python·ai·语言模型
nkwshuyi8 小时前
ChatGPT Atlas Agent 如何帮你采集数据和调研?
人工智能·chatgpt
buttonupAI8 小时前
今日Reddit AI高价值讨论分析 - 10.27
人工智能·chatgpt
rengang668 小时前
020-Spring AI Alibaba DashScope Image 功能完整案例
java·人工智能·spring·spring ai·ai应用编程
rengang668 小时前
AI驱动的DevOps:AI大模型自动化部署、监控和运维流程
运维·人工智能·ai编程·devops·ai智能体编程
碧海银沙音频科技研究院8 小时前
ES7243E ADC模拟音频转i2S到 BES I2S1 Master输出播放到SPK精准分析
人工智能·算法·音视频
音视频牛哥8 小时前
从“十五五”规划看中国视频基础设施的下一个五年:SmartMediaKit 的战略跃迁与时代机遇
人工智能·音视频·大牛直播sdk·十五五规划具身智能·十五五规划音视频·低空经济低延迟音视频方案·具身智能rtsp rtmp
ICscholar8 小时前
生物突触功能总结
人工智能
百度智能云8 小时前
MySQL最怕的IN大列表,被百度智能云GaiaDB治好了!查询速度提升60倍!
算法