架构师备考-非关系型数据库

基础理论

CAP 理论

C（Consistency）一致性。一致性是指更新操作成功并返回客户端完成后，所有的节点在同一时间的数据完全一致，与ACID 的 C 完全不同。
A （Availability）可用性。可用性是指服务一直可用，而且是正常响应时间
P（Partition tolerance）分区容错性。分区容错性是指分布式系统在遇到某节点或网络区分故障的时候，仍然能够对外提供满足一致性和可用性的服务。
CA：优先保证一致性和可用性，放弃分区容错性。
- 缺点：不再是分布式系统
CP：优先保证一致性和分区容错性，放弃可用性。
- 缺点：牺牲用户体验
AP：优先保证可用性和分区容错性，放弃一致性。
- 全局数据的不一致性

BASE 理论

基本可用（Basically Available）：指分布式系统在出现不可预知故障的时候，允许牺牲部分可用性。允许分区失败的情形出现

软状态（soft state）
- 硬状态：数据库状态一直保持数据库一致性
- 软状态：状态可以有一段时间不同步
最终一致性（Eventuallyconsistent）：系统中所有的数据副本，在经过一段时间的同步后，最终能够达到一个一致的状态。

NOSQL 特点

NOSQL 数据库的主要特点包括：易拓展、高性能处理大数据量的数据、灵活的数据模型、高可用

易拓展：去掉了关系数据库的关系型特性。数据之间无关系，这样就非常容易扩展。
大数据量，高性能：NoSQL 数据库都具有非常高的读写性能，尤其在大数据量下。这得益于它的无关系性，数据库的结构简单。
灵活的数据模型：NoSQL 无须事先为要存储的数据建立字段，随时可以存储自定义的数据格式
高可用：NoSQL 在不太影响性能的情况下，就可以方便的实现高可用的架构，有些产品通过复制模型也能实现高可用。

NOSQL与SQL 比较

|-------|---------|-----------|
| 特征 | SQL 数据库 | NOSQL 数据库 |
| 数据类型 | 结构化 | 非结构化 |
| 数据一致性 | 强一致性 | 弱一致性 |
| 事务 | 高事务性 | 弱事务性 |
| 拓展性 | 一般 | 好 |
| 数据容量 | 有限数据 | 海量数据 |
| 标准化 | 是 | 否 |
| 技术支持 | 高 | 低 |
| 可维护性 | 复杂 | 复杂 |

NOSQL 体系框架

NOSQL 分为 4层，分别是数据持久层、数据分布层、数据逻辑模型层、接口层
数据持久层：定义了数据的存储形式
- 内存：最快，但可能造成数据丢失
- 硬盘：保存很久，但存取慢于内存
- 内存和硬盘接口
- 定制可插拔：保证了数据存取具有较高的灵活性
数据分布层：定义了数据是如何分布的
- CAP 支持，可用于水平拓展
- 多数据中心支持，可以保证在横跨多数据中心时也能够平稳运行
- 动态部署支持，可以在运行着的集群中动态地添加或删除节点
数据逻辑模型层：数据的逻辑表现形式
接口层：为上层应用提供了方便的数据调用接口
- Rest：一种软件架构风格，它定义了一组用于分布式系统的架构原则
- Thrift：一个由Apache开发的跨语言的服务部署框架
- Map/Reduce：一种编程模型，用于大规模数据集（大规模数据集）的并行运算
- Get/Put：Get/Put 是一种简单的键值存储操作接口，其中"Get"用于检索数据，"Put"用于存储数据
- 特定语言API：许多NoSQL数据库为特定编程语言提供了专用的API

NOSQL 适用场景

数据模型比较简单
需要灵活性更强的IT 系统
对数据库性能要求较高
不需要高度的数据一致性
对于给定key，比较容易映射复杂值的环境

NOSQL 数据库分类

NOSQL 数据库主要分为4类，分别是：键值对数据库、列式存储数据库、文档型数据库、图数据库

键值对数据库

键值存储的典型数据结构一般为数据链表：先通过Hash 算法得出 Hashcode，找到数组的某一个位置，然后插入链表。
这类数据库主要会用到一个哈希表，表中有一个特定的键和一个指针指向特定的数据。
Key-Value 模型对于IT 系统来说，其优势在于简单、易部署。但是如果数据库管理员只对部分值进行查询或更新的时候，Key-Value 就显得效率低下了。
典型应用
- 涉及频繁读写、拥有简单数据模型的应用
- 内容缓存、比如会话配置文件、参数、购物车等
- 存储配置和用户信息的移动应用
优点：拓展性好、灵活性好、大量写操作时性能高
缺点：无法存储结构化信息，条件查询效率较低
相关产品：redis、Memcached

列式存储数据库

列式数据库是按数据库记录的列来组织和存储数据的，数据库中每个表由一组页链的集合组成，每条页链对应表中的一个存储列。
这类数据库通常用来应对分布式存储的海量数据。键仍然存在，但是他们的特点是指向了多个列。这些列是由列家族来安排的。
典型应用
- 数据分析：列式数据库非常适合进行数据分析和数据仓库应用，尤其是涉及大量聚合操作的场景。
- 大数据处理：用于处理大规模分布式数据集，如日志分析、用户行为分析等。
- 实时查询：在需要快速响应的实时分析系统中，列式数据库可以提供高效的查询性能。
- 分布式存储：在需要高可用性和容错能力的分布式系统中，列式数据库因其设计而具有优势。
优点：
- 查询性能：对于读取大量数据中的少数几列的场景，列式数据库可以显著提高查询性能，因为它只需要读取相关的列而不是整行数据。
- 压缩率高：由于同一列的数据类型相同，列式数据库通常可以实现更高的数据压缩率，从而减少存储空间和I/O操作。
- 可扩展性：列式数据库通常设计为分布式系统，易于水平扩展，可以处理不断增长的数据量。
- 容错性：许多列式数据库支持数据复制和分区，提高了系统的容错能力和可用性。
缺点:
- 写入性能：由于数据是按列存储的，对于涉及多列的写入操作，列式数据库可能不如行式数据库高效。
- 事务支持：大多数列式数据库不支持复杂的事务操作，这对于需要强事务一致性的应用来说可能是一个限制。
- 数据更新：对于频繁的数据更新操作，列式数据库可能不如行式数据库高效，因为更新操作可能需要重写整列数据。
- 复杂查询：虽然列式数据库在聚合查询方面表现优异，但对于涉及多表连接的复杂查询，其性能可能不如行式数据库。
相关产品:Apache Cassandra、Apache HBase、Google Bigtable

文档型数据库

该类型的数据模型是版本化的文档，半结构化的文档以特定的格式存储，比如JSON。文档型数据库可以看作是键值数据库的升级版，允许嵌套键值，在处理网页等复杂数据时，文档型数据库比传统键值数据库的查询效率更高。
典型应用：存储、索引并管理面向文档的数据或者类似的半结构化数据。比如用于后台具有大量读写操作的网站、使用JSON 数据结构的应用、使用嵌套结构等非规范化数据的应用程序
优点：
- 性能好（高并发）、灵活性高、复杂度低、数据结构灵活
- 提供嵌入式文档功能，将经常查询的数据存储在同一个文档中。既可以根据键来构建索引，也可以根据内容构建索引
缺点：缺乏统一的查询语法
相关产品：MongoDB、Lucene、Elasticserach

图数据库

图形结构的数据库同其他采用行列以及刚性结构的SQL 数据库不同，它使用灵活的图形模型，并且能够拓展到多个服务器上。
NOSQL 没有标准的查询语言，因此进行数据库查询需要指定数据模型。
许多NoSQL 数据库都有REST 式的数据接口或者查询API。适合存储通过图进行建模的数据，列如社交网络数据、生物信息网络数据、交通网络数据等。
典型应用：专门用于处理具有高度相互关联关系的数据，比较适合于社交网络、模式识别、依赖分析、推荐系统以及路径寻找等问题
优点：灵活性高、支持复杂的图形算法、可用于构建复杂的关系图谱
缺点：复杂度高、只能支持一定的数据规模
相关产品：Neo4J、InfoGrid、Infinite Graph