行存储与列存储的区别

行存储（Row-oriented Storage）和列存储（Column-oriented Storage）是数据库两种核心的数据存储范式，核心差异在于数据在磁盘 / 内存中的组织方式，进而导致读写性能、适用场景的本质区别。以下从核心特征、存储结构、性能表现、适用场景等维度详细对比：

组织方式：按 "行" 为单位存储数据，整行的所有列数据连续存储在磁盘的相邻物理块中。
直观示例 ：假设数据表 user_behavior 有 user_id、action、time、page 四列，存储 3 行数据时，物理存储顺序为：

[user_id:1, action:click, time:2025-01-01, page:home] → [user_id:2, action:view, time:2025-01-01, page:product] → [user_id:3, action:buy, time:2025-01-01, page:cart]
典型数据库：MySQL、PostgreSQL、Oracle（默认）、SQL Server（默认）等 OLTP 数据库。

组织方式：按 "列" 为单位存储数据，同一列的所有行数据连续存储，不同列分开存储。
直观示例：同上表，物理存储顺序为：

列1（user_id）：[1,2,3] → 列2（action）：[click,view,buy] → 列3（time）：[2025-01-01,2025-01-01,2025-01-01] → 列4（page）：[home,product,cart]
典型数据库：ClickHouse、Vertica、Redshift、BigQuery、HBase（列族）等 OLAP 数据库。

对比维度	行存储	列存储
存储单位	整行数据	单列数据
数据读取	读取一行时只需一次 IO，但查询少数列时，会读取整行（包含无用列），IO 冗余大	只读取查询需要的列，IO 开销极小；读取整行时需拼接多列，IO 次数多
数据压缩	列类型混杂，压缩率低（通常 1:2~1:3）	同列数据类型一致、重复度高，压缩率极高（1:10~1:20）
写入 / 更新性能	单行写入 / 更新只需一次 IO，性能优异	单行写入需修改多列数据，IO 次数多；批量写入性能优
聚合查询性能	需扫描所有行的所有列，计算效率低	仅扫描目标列，配合向量化执行，聚合（求和 / 计数 / 平均值）极快
索引适配	适合行级索引（如 B + 树），适配点查	适合列级索引（如跳数索引、布隆过滤器），适配范围分析
事务支持	原生支持 ACID 事务，适配高并发小事务	大多仅支持最终一致性，事务能力弱

行存储优势：点查（如 "查询 user_id=1 的所有信息"），只需读取 1 行数据，IO 少、速度快；
列存储优势 ：分析查询（如 "统计所有用户的点击次数"），只需读取user_id和action两列，无需扫描time、page列，IO 开销大幅降低，且同列数据压缩后体积更小，进一步提升读取速度。

行存储优势：单行写入 / 更新（如 "修改 user_id=1 的 page 字段"），只需定位到该行并修改，一次 IO 即可完成，适配 OLTP 高并发小写入；
列存储劣势 ：单行更新需修改多个列的存储块，IO 次数多，性能差；但批量写入（如导入 100 万行日志）时，列存储可按列批量写入，性能接近甚至超过行存储（ClickHouse 批量写入可达百万行 / 秒）。

行存储中一行包含不同类型数据（如整型、字符串、日期），数据特征杂乱，压缩算法难以发挥作用；列存储中同列数据类型完全一致（如全是整型用户 ID、全是字符串行为），重复模式多，可通过 LZ4、ZSTD 等算法实现高压缩率，既节省存储成本，又减少 IO 传输量。

适合 "读少写多、高并发、小事务" 的联机事务处理场景，典型场景：

适合 "读多写少、海量数据、复杂分析" 的联机分析处理场景，典型场景：