说下数据存储

数据落盘是很重要的一个环节。数据库在落盘前都是要先写到日志文件的,防止文件丢失和系统崩溃恢复的。硬盘有个问题那就是慢,所以存储的数据提取一般都是要考虑这个问题的,一般有两个部分一个就是减少读取也就是减少IO,另一个就是需要一些数据结构的设计对数据提取和写入效率有一些保障的。

数据库有个WAL的机制

任何对数据文件的修改,必须先写入日志(log),然后才能写入数据文件(data file)。先写日志是因为担心真正写数据的时候发生崩溃可以补救,内存的数据又没法落地会丢失的。

简单的说下数据的文件

  • 因为从系统到硬盘每层都是缓存的。
  • 还有是写入的数据要读取是要序列化和反序列化的,最简单的比如写入一个文本的文件,在把文件的内容读取出来。但是存储数据肯定不能用这个搞法的写的都是字节码反解析出对应的数据。

  • 还有个问题是什么时候触发这个写盘的动作。批量还好;如果性能有要求的?有个阈值控制写盘的动作。

  • 还有个问题读写盘的时候顺序读写性能是最高的,这里就有个划分的问题

  • 还有就是后期有个合并得操作提高利用率

  • 还有个再提下了分布式文件系统数据分散开来。数据分片、冗余备份?

简单来个demo

因为写盘解析很麻烦这里就说个例子,不实操了。

定义一个简单的表结构

ini 复制代码
自动写入添加一个字段 _status 1个字节
表结构:id 32位
       name 100位
       msg  200位
一条数据最大的位数 1+32+100+200=333个字节       

划分

erlang 复制代码
|数据1|数据2|......
因为有些字段是变长的修改下结构,怎么办?
|数据长度-数据1|数据长度-数据2|......
这里面还有个问题就是你会发现数据提取的时候必须整个块一起提取才能找到数据,那再开辟一块地方记录索引数据
|主键-数据1位置|主键-数据2位置|......
这样已处理完后有个问题数据修改还像修改不了了
->打个删除标记->重新写条数据进去

划分分块

  • 整个文件我们可以拆分成一个一个的小块进行数据处理

简单的安全

为了方式文件的损坏这里可以再数据写入后主动添加有些校验数据CRC、MD5、sha。

数据分片?

数据拆分不同地方+拼接? 另存一份备份?完整的一个备份、切片数据有备份拼接 这里面有个问题份的数据量怎么控制?

相关推荐
WeiXiao_Hyy2 小时前
成为 Top 1% 的工程师
java·开发语言·javascript·经验分享·后端
玄同7652 小时前
SQLite + LLM:大模型应用落地的轻量级数据存储方案
jvm·数据库·人工智能·python·语言模型·sqlite·知识图谱
吾日三省吾码2 小时前
别只会“加索引”了!这 3 个 PostgreSQL 反常识优化,能把性能和成本一起打下来
数据库·postgresql
chian-ocean2 小时前
百万级图文检索实战:`ops-transformer` + 向量数据库构建语义搜索引擎
数据库·搜索引擎·transformer
苏渡苇2 小时前
优雅应对异常,从“try-catch堆砌”到“设计驱动”
java·后端·设计模式·学习方法·责任链模式
long3162 小时前
Aho-Corasick 模式搜索算法
java·数据结构·spring boot·后端·算法·排序算法
那个村的李富贵2 小时前
解锁CANN仓库核心能力:50行代码搭建国产化AIGC图片风格迁移神器
mysql·信息可视化·aigc·cann
小Tomkk2 小时前
数据库 变更和版本控制管理工具 --Bytebase 安装部署(linux 安装篇)
linux·运维·数据库·ci/cd·bytebase
rannn_1112 小时前
【苍穹外卖|Day4】套餐页面开发(新增套餐、分页查询、删除套餐、修改套餐、起售停售)
java·spring boot·后端·学习
qq_12498707533 小时前
基于JavaWeb的大学生房屋租赁系统(源码+论文+部署+安装)
java·数据库·人工智能·spring boot·计算机视觉·毕业设计·计算机毕业设计