HBase难点 - 技术栈

HBase难点

mengml_smile2024-12-02 11:05

一次Scan会返回大量数据，客户端向HBase发送一次Scan请求，实际上并不会将所有数据加载到本地，而是通过多次RPC请求进行加载，防止客户端OOM。
禁止缓存优化：批量读取数据时会全表扫描一次业务表，这种提现在Scan操作场景。在Scan时，客户端与RegionServer进行数据交互(RegionServer的实际数据时存储在HDFS上)，将数据加载到缓存，如果加载很大的数据到缓存时，会对缓存中的实时业务热数据有影响，由于缓存大小有限，加载的数据量过大，会将这些热数据"挤压"出去，这样当其他业务从缓存请求这些数据时，会从HDFS上重新加载数据，导致耗时严重。在批量读取(T+1)场景时，建议客户端在请求是，在业务代码中调用setCacheBlocks(false)函数来禁止缓存，默认情况下，HBase是开启这部分缓存的。
get数据和批量get数据，批量get时可以有效的较少客户端到各个RegionServer之间RPC连接数。
在查询的时候，可以查询指定我们需要返回结果的列，最好是同一个列族，对于不需要的列，可以不需要指定，这样能够有效地的提高查询效率，降低延时。
禁止缓存优化