Sampling采样与Virtual Columns虚拟列

1.大数据体系下,在真正的企业环境中,很容易出现很大的表,比如体积达到 TB 级别.对这种表一个简单的 SELECT * 都会非常的慢,哪怕 LIMIT 10 想要看 10 条数据,也会走 MapReduce 流程

这个时间等待是不合适的.Hive 提供的快速抽样的语法,可以快速从大表中随机抽取一些数据供用户查看。

2.TABLESAMPLE 函数

语法 1 ,基于随机分桶抽样:

SELECT ... FROM tbl TABLESAMPLE(BUCKET x OUT OF y ON(colname | rand()))

• y 表示将表数据随机划分成 y 份( y 个桶)

• x 表示从 y 里面随机抽取 x 份数据作为取样

• colname 表示随机的依据基于某个列的值

• rand() 表示随机的依据基于整行

实例:

SELECT username,orderId,totalmoney FROM orders TABLESAMPLE(BUCKET 1 OUT OF 10 ON orders.username);

SELECT * FROM orders TABLESAMPLE(BUCKET 1 OUT OF 10 ON rand());

用rand()函数随机,所以select结果不一样

语法 2 ,基于数据块抽样SELECT ... FROM tbl TABLESAMPLE(num ROWS | num PERCENT | num(K|M|G));

num ROWS 表示抽样 num 条数据

num PERCENT 表示抽样 num 百分百比例的数据

num(K|M|G) 表示抽取 num 大小的数据,单位可以是 K 、 M 、 G 表示 KB 、 MB 、 GB

无法做到随机,只是按照数据顺序从前向后取。

3.Virtual Columns虚拟列

虚拟列是 Hive 内置的可以在查询语句中使用的特殊标记,可以查询数据本身的详细参数。

Hive 目前可用 3 个虚拟列:

INPUT__FILE__NAME,显示数据行所在的具体文件

BLOCK__OFFSET__INSIDE__FILE,显示数据行所在文件的偏移量

ROW__OFFSET__INSIDE__BLOCK,显示数据所在 HDFS块的偏移量

此虚拟列需要设置:SET hive.exec.rowoffset=true才可使用

SET hive.exec.rowoffset=true

SELECT *, INPUT__FILE__NAME, BLOCK__OFFSET__INSIDE__FILE, ROW__OFFSET__INSIDE__BLOCK FROM course;

虚拟列的作用:更精准的查看到具体每一条数据在存储上的详细参数细节

虚拟列不仅仅可以用于 SELECT ,在 WHERE 、 GROUP BY 等均可使用

实例:

SELECT *, BLOCK__OFFSET__INSIDE__FILE FROM course WHERE BLOCK__OFFSET__INSIDE__FILE > 50;

SELECT INPUT__FILE__NAME, COUNT(*) FROM orders GROUP BY INPUT__FILE__NAME;

相关推荐
IALab-检测行业AI报告生成4 小时前
IACheck AI 报告审核助手:整体架构与详细结构说明
大数据·人工智能·架构·ai报告审核
码农杂谈00074 小时前
AI 原生企业内容管理:4 大转型策略,破解老软件 AI 升级难题
大数据·人工智能·内容中台·企业内容管理系统·内容生产·ai内容生产·生成式 ai 品牌力
tuotali20266 小时前
氢气压缩机技术核心要点测评
大数据·人工智能
志栋智能7 小时前
AI驱动的系统自动化巡检:重塑IT基石的智慧“守护神”
大数据·运维·人工智能·云原生·自动化
qyr67898 小时前
便携式太阳能折叠板市场白皮书与未来趋势展望
大数据·人工智能·物联网·市场分析·市场报告·便携式太阳能折叠板·太阳能折叠板
码农杂谈00079 小时前
企业 AI 推理:告别黑箱决策,4 步构建可解释 AI 体系
大数据·人工智能
LaughingZhu9 小时前
Product Hunt 每日热榜 | 2026-02-18
大数据·数据库·人工智能·经验分享·搜索引擎
城数派10 小时前
我国逐日地表气压栅格数据(2005-2025年)
大数据·数据分析
派可数据BI可视化11 小时前
一文读懂系列:数据仓库为什么分层,分几层?数仓建模方法有哪些
大数据·数据仓库·信息可视化·spark·商业智能bi
Light6011 小时前
不止于名:领码 SPARK 如何“链”动数据仓库、数据湖、中台与湖仓一体新纪元
大数据·数据仓库·数据湖·ipaas·湖仓一体·数据中台·领码 spark