MongoDB 和 cassadra

MongoDB在搭建时候，要自己设置shard。也要自己进行缩容/扩容
MongoDB可以创建表时候是定义分片的或是非分片的。如果是分片的，需要指定shardkey
MongoDB可以createIndex() 创建索引。
MongoDB是只写入primery节点的。primery节点会复制到secondery节点。复制的个数可以配置，只有多少个复制成功了，才会认为插入成功
readPreference = primary

readConcern = majority/linearizable

writeConcern = majority

readPreference可以从主，也可以从备读取。但是readConcern = linearizable，则要求一定要readPreference是primary。因为要判断可读取的主是不是真的主

majority的在readConcern并不是含义真的读取全部的node判断，而是在请求的节点获取它认为的majority同意后的数据。因此这个数据可能是过时的，例如主变更，有新的数据写入
MongoDB 有 causal consistency session。可以保证自己写入后，自己可以读取出来

我刚写了 x=2
↓
马上去读 secondary
↓
如果不用 session，可能读到旧值 x=1
↓
如果用 causal consistent session + majority，MongoDB 会尽量保证我读到 x=2 或更新值

**8.**MongoDB索引是B树。MongoDB 分片集群里没有一个中心化的全局索引文件；每个 shard 只维护自己数据范围内的本地索引，副本集里的每个副本节点也各自保存一份索引文件。

MongoDb的shard key不一定要求唯一性。结合shardkey能定位到哪个shard，之后这个shard的索引就能用上。否则就只能广播

10.MongoDb

普通 collection：按 _id 查完整文档，通常是 _id_ 索引查到 RecordId，再 FETCH 文档。

covered query：只返回索引里已有字段，可以不 FETCH。

clustered collection：_id 和文档存储顺序绑定，按 _id 查会更接近直接定位。

Cassandra 也是配置写入多少个节点返回成功。此时可能一个值的更新被同时写入，此时根据最后一个写入成功的时间戳来解决冲突。解决冲突是在读取时候发现并解决的。

读取有

配置	含义	特点
`ONE`	一个副本返回即可	最快，但可能读旧数据
`LOCAL_ONE`	本地数据中心一个副本返回即可	多机房常用，低延迟
`QUORUM`	多数副本返回	一致性更强，延迟更高
`LOCAL_QUORUM`	本地数据中心多数副本返回	多机房最常见推荐
`ALL`	所有副本返回	最强但可用性和延迟最差

单机房：QUORUM

多机房：LOCAL_QUORUM

追求低延迟：LOCAL_ONE

强一致要求很高：ALL 通常不推荐，太脆弱

Cassandra speculative_retry 如果某个副本读得慢，coordinator 可以额外请求另一个副本，谁先回来用谁，降低长尾延迟。

ALTER TABLE users

WITH speculative_retry = '99PERCENTILE';

ALTER TABLE users

WITH speculative_retry = '10ms';

并发冲突检测 Cassandra 官方文档说，每一行里的每个 column 都会根据 last-write-wins 解决并发 mutation，并且 timestamp 是加在每个 column/cell 上的。

可以，Cassandra 的 clustering key 可以有多个。

在 Cassandra 里，一个表的 Primary Key 分两部分：

复制代码

PRIMARY KEY ((partition_key), clustering_key1, clustering_key2, ...)

例如：

复制代码

CREATE TABLE orders (
    user_id text,
    order_date date,
    order_id uuid,
    amount decimal,
    PRIMARY KEY ((user_id), order_date, order_id)
);

这里：

复制代码

(user_id)

是 partition key，决定数据分布在哪个节点。

复制代码

order_date, order_id

是 clustering keys，用于在同一个 partition 内排序和组织数据。