说下数据存储

数据落盘是很重要的一个环节。数据库在落盘前都是要先写到日志文件的,防止文件丢失和系统崩溃恢复的。硬盘有个问题那就是慢,所以存储的数据提取一般都是要考虑这个问题的,一般有两个部分一个就是减少读取也就是减少IO,另一个就是需要一些数据结构的设计对数据提取和写入效率有一些保障的。

数据库有个WAL的机制

任何对数据文件的修改,必须先写入日志(log),然后才能写入数据文件(data file)。先写日志是因为担心真正写数据的时候发生崩溃可以补救,内存的数据又没法落地会丢失的。

简单的说下数据的文件

  • 因为从系统到硬盘每层都是缓存的。
  • 还有是写入的数据要读取是要序列化和反序列化的,最简单的比如写入一个文本的文件,在把文件的内容读取出来。但是存储数据肯定不能用这个搞法的写的都是字节码反解析出对应的数据。

  • 还有个问题是什么时候触发这个写盘的动作。批量还好;如果性能有要求的?有个阈值控制写盘的动作。

  • 还有个问题读写盘的时候顺序读写性能是最高的,这里就有个划分的问题

  • 还有就是后期有个合并得操作提高利用率

  • 还有个再提下了分布式文件系统数据分散开来。数据分片、冗余备份?

简单来个demo

因为写盘解析很麻烦这里就说个例子,不实操了。

定义一个简单的表结构

ini 复制代码
自动写入添加一个字段 _status 1个字节
表结构:id 32位
       name 100位
       msg  200位
一条数据最大的位数 1+32+100+200=333个字节       

划分

erlang 复制代码
|数据1|数据2|......
因为有些字段是变长的修改下结构,怎么办?
|数据长度-数据1|数据长度-数据2|......
这里面还有个问题就是你会发现数据提取的时候必须整个块一起提取才能找到数据,那再开辟一块地方记录索引数据
|主键-数据1位置|主键-数据2位置|......
这样已处理完后有个问题数据修改还像修改不了了
->打个删除标记->重新写条数据进去

划分分块

  • 整个文件我们可以拆分成一个一个的小块进行数据处理

简单的安全

为了方式文件的损坏这里可以再数据写入后主动添加有些校验数据CRC、MD5、sha。

数据分片?

数据拆分不同地方+拼接? 另存一份备份?完整的一个备份、切片数据有备份拼接 这里面有个问题份的数据量怎么控制?

相关推荐
风象南6 分钟前
普通人用AI加持赚到的第一个100块
人工智能·后端
冰_河2 小时前
QPS从300到3100:我靠一行代码让接口性能暴涨10倍,系统性能原地起飞!!
java·后端·性能优化
JavaGuide4 小时前
7 道 RAG 基础概念知识点/面试题总结
前端·后端
桦说编程5 小时前
从 ForkJoinPool 的 Compensate 看并发框架的线程补偿思想
java·后端·源码阅读
格砸5 小时前
从入门到辞职|从ChatGPT到OpenClaw,跟上智能时代的进化
前端·人工智能·后端
蝎子莱莱爱打怪6 小时前
GitLab CI/CD + Docker Registry + K8s 部署完整实战指南
后端·docker·kubernetes
哈密瓜的眉毛美6 小时前
零基础学Java|第三篇:DOS 命令、转义字符、注释与代码规范
后端
用户60572374873087 小时前
AI 编码助手的规范驱动开发 - OpenSpec 初探
前端·后端·程序员
哈密瓜的眉毛美7 小时前
零基础学Java|第二篇:Java 核心机制与第一个程序:从 JVM 到 Hello World
后端