MegaHash - 一个高性能nodejs缓存技术

本文笔者想要来分享和介绍一个高性能的内存键值缓存系统和技术-MegaHash。笔者已经将其应用在一个对性能非常敏感的信息查询系统当中,并取得了比较好的效果。

关于MegaHash

MegaHash(MH)没有正式的官网,使用github进行相关技术和产品的发布和服务。

github.com/jhuckaby/me...

根据其产品描述,MegaHash是一个超快速的键-值哈希表,使用C++编写,并被封装为Nodejs模块和API,方便nodejs应用程序的集成和使用。它的主要特性包括:

  • 高性能读、写、删除和键迭代操作
  • 性能稳定并且可预测
  • 低内存消耗
  • 所有的数据存储都在V8堆之外
  • 支持Buffer、字符串、数字、布尔和对象等多种类型
  • 测试过高达100万的键值
  • 兼容基本的ES6 Map API

可以看到,MH的一个核心特点是其性能,因为它针对的是普通nodejs应用的一个比较忽视的方面,就是对于大型数据集的内存管理。普通的nodejs程序工作时的内存基本上都局限在V8内存堆中,也使用V8和相关的内存机制,但当数据规模超过限制时,会出现灵活性不足的问题。MH自行实现了相关的内存和数据管理机制,不会占用应用程序的堆内存,从而提高了额外的性能、灵活性和健壮性。

其他一些技术细节和限制包括:

  • 安装过程需要GCC编译器
  • MH使用"Separate Chaining(独立链接)"技术管理键和存储
  • MH使用32位DJB2算法对键进行摘要,并使用特别得方式建立索引,从而能够在速度和内存开销之间取得平衡
  • MH的值,实际上都会被序列化,并在写入和读取时自动处理
  • 键的长度限制为65K字节,不能为空(实际上使用buffer),数量没有明确限制
  • MH值得限制为2GB

性能

关于性能,这里有一个简单的测试案例,可以帮助读者初步理解Megahash系统能够提供的应用性能。这个测试(图)的设置和结果要点包括:

  • 平台: AWS EC2 c5a.16xlarge VM
  • 配置: 64核/128GB内存/20Gbps网络
  • 数据: 10亿个key,简单数据
  • 性能(平均): 写535261/秒,读961851/秒
  • 内存: 总占用约34GB,其中Megahash的开销约为27GB

这样的配置,放到现在,就是一台普通的工业服务器的配置水平,但能够支持数百K/S级别的数据读写操作,完全可以满足一般规模的企业级业务系统的使用了。另外,从测试的图中可以看到,在一定的范围内,其读写性能基本上不受数据规模的影响,这对于应用的稳定性是非常重要的。

应用

MH的开发和集成也是非常简单,和一般的npm应用差异不大。一般的步骤和操作如下。

安装npm

当然作为一个外部软件,需要先进行安装,可以使用npm:

npm install megahash

引用和实例化

然后,在使用之前,需要先引用和实例化:

const MegaHash = require('megahash');

let hashTable = new MegaHash();

实例化之后,实际上就在系统中建立起了一个内存键值存储表,可以进行相关的数据操作了。

一般操作

作为一个键值数据库,一般的操作包括增加(设置)、读取、存在检查、删除和清除,其参考操作代码如下:

js 复制代码
// 增加和设置
hash.set( "hello", "there" );

// 读取和查询,如果没有,结果为 undefined
let hvalue =   hash.get("hello");

// 存在检查
let isexist =  hash.has("hello");

// 删除键
hash.delete("hello");

// 清除数据
hash.clear();

数据类型

MH的key使用的就是普通的字符串,它的值支持更大的数据类型,包括普通的字符串、js对象、buffer、number、boolean和null等等。

遍历

除了可以直接使用键进行访问之外,还可以使用遍历的方式来访问MH实例:

js 复制代码
let key = hash.nextKey();
while (key) {
   // do something with key
   key = hash.nextKey(key);
}

状态

MH提供了存储状态检查的功能,可以检查如键的数量、数据大小、索引大小等统计和状态信息,使用方法如下:

js 复制代码
// hash表的大小
let length = hash.length();

// 统计信息
let stats = hash.stats();
console.log(stats);

Example stats:
{
	"numKeys": 10000,
	"dataSize": 217780,
	"indexSize": 87992,
	"metaSize": 300000,
	"numIndexes": 647
}

错误处理

MH并没有提供太复杂的错误处理机制,因为最常见能够遇到的问题就是资源限制无法操作了,如下列代码:

js 复制代码
    let result = hash.set( "hello", "there" );
    if (!result) {
            throw new Error("Failed to write to MegaHash: Out of memory");
    }

注意事项

首先,MH是一些特殊的目标和场景设计的,它是一个内存数据系统,它没有持久化的功能,如果考虑到意外宕机的恢复,可能需要自己实现相关的持久化的机制。

另外,和Redis不同,它也没有相关的网络访问方式和额外的数据类型,不能提供更为复杂的业务支撑功能,或者需要开发者进行额外的开发。MH提供的接口和功能比较简单,只能够和应该作为应用系统内部的一个程序模块来使用,而不是一个独立的子系统,当然如果业务的抽象层级足够的化,我们也可以将其封装成通用的模块来使用。

还有,就是其安装过程现在还不是特别方便,因为涉及C++原生程序,需要进行现场的编译,对Windows的支持也可能存在问题。

所以,MH这个技术是一种比较特别的技术,适用于一些特别的应用场景。比如对性能和并发要求比较高的,相对静态的数据和信息查询系统。

小结

本文探讨和分享了一个内存哈希表存储技术-Megahash,了解了其技术实现和特点,以及应用的方式和场合。

相关推荐
Zheng1131 小时前
【可视化大屏】将柱状图引入到html页面中
javascript·ajax·html
夜月行者1 小时前
如何使用ssm实现基于SSM的宠物服务平台的设计与实现+vue
java·后端·ssm
Yvemil71 小时前
RabbitMQ 入门到精通指南
开发语言·后端·ruby
sdg_advance1 小时前
Spring Cloud之OpenFeign的具体实践
后端·spring cloud·openfeign
john_hjy1 小时前
【无标题】
javascript
奔跑吧邓邓子1 小时前
npm包管理深度探索:从基础到进阶全面教程!
前端·npm·node.js
软件开发技术深度爱好者2 小时前
用HTML5+CSS+JavaScript庆祝国庆
javascript·css·html5
猿java2 小时前
使用 Kafka面临的挑战
java·后端·kafka
碳苯2 小时前
【rCore OS 开源操作系统】Rust 枚举与模式匹配
开发语言·人工智能·后端·rust·操作系统·os
kylinxjd2 小时前
spring boot发送邮件
java·spring boot·后端·发送email邮件