hive 数据简介

Hive介绍

1)Hive简介

Hive是基于Hadoop的一个数据仓库工具,用于结构化数据的查询、分析和汇总。Hive提供类SQL查询功能,它将SQL转换为MapReduce程序。

Hive不支持OLTP,Hive无法提供实时查询。

2)Hive在大数据生态环境中的位置

使用Hive与HBase进行海量数据库与查询; Hive介绍; Hive在大数据生态环境中的位置;

3)Hive特点

Hive的优点

复制代码
简单容易上手:提供了类SQL查询语言HQL。
可扩展:一般情况下不需要重启服务Hive可以自由的扩展集群的规模。
提供统一的元数据管理。
延展性:Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
容错:良好的容错性,节点出现问题SQL仍可完成执行。

使用Hive与HBase进行海量数据库与查询; Hive介绍; Hive特点;

Hive的缺点(局限性)

复制代码
Hive的HQL表达能力有限:迭代式算法无法表达,比如pagerank;数据挖掘方面,比如kmeans。
Hive的效率比较低:Hive自动生成的MapReduce作业,不够智能化;Hive调优比较困难,粒度较粗;Hive可控性差。

4)Hive与传统数据库对比

使用Hive与HBase进行海量数据库与查询; Hive介绍; Hive VS 传统数据库;

5)Hive的体系架构

使用Hive与HBase进行海量数据库与查询; Hive介绍; Hive的体系架构;

复制代码
client 三种访问方式:CLI、JDBC/ODBC、WEBUI。
Meta store 元数据:表名、表所属数据库、表拥有者、列、分区字段、表类型、表数据所在的目录等,默认存储在自带的derby数据库中。
Driver:解析器、编译器、优化器、执行器。

6)Hive中的数据模型

使用Hive与HBase进行海量数据库与查询; Hive介绍; Hive中的数据模型;

Hive 中所有的数据都存储在 HDFS 中Hive 中包含以下数据模型:

复制代码
表(Table)
外部表(External Table)
分区(Partition)
桶(Bucket)

6.SQL介绍与Hive应用场景

1)数据库操作和表操作

作用 HiveQL

2)查询语句

3)Hive的应用场景

Hive并不适合需要低延迟的应用,适合于大数据集的批处理作业:

复制代码
日志分析:大部分互联网公司使用hive进行日志分析,包括百度、淘宝等。例如,统计网站一个时间段内的pv、uv,多维度数据分析等。
海量结构化数据离线分析。

4)Hive和HBase的区别与联系

使用Hive与HBase进行海量数据库与查询; SQL介绍 & Hive应用; Hive VS HBase;

相关推荐
小懿互联集成平台1 小时前
金蝶云星空与赛狐跨境电商ERP系统数据互通对接
大数据·金蝶云星空·数据对接·小懿互联·赛狐erp
于先生吖1 小时前
覆盖多行业的AI解决方案:AI知识库智能体落地全解析
大数据·人工智能
ACP广源盛139246256732 小时前
GSV5600@ACP#多接口协议转换芯片,物理 AI 便携终端的互联核心
大数据·人工智能·分布式·嵌入式硬件·spark
147API2 小时前
Fable 5访问暂停后,模型接入层不能再只写死一个模型名
大数据·人工智能·api·claude
KaMeidebaby2 小时前
卡梅德生物技术快报 | 噬菌体展示 12 肽文库在蛋白表位定位中的应用与实验数据
大数据·人工智能·架构·spark·新浪微博
JIAXIN_culture2 小时前
甘肃景观工程定制服务FAQ:企业如何选对合作方?
大数据·人工智能
青绿蓝LCA低碳研究院2 小时前
环保的本质:从“末端修补”到“系统重构”的生存范式转移 - 蓝色星球
大数据·人工智能·经验分享·重构
xwz小王子2 小时前
ICRA 2026深度观察:全栈闭环成标配,中国具身智能势力显著崛起
大数据·人工智能·算法
逻辑探险家2 小时前
2026 中国 GEO 服务商综合实力评测
大数据·人工智能·产品运营
MemoriKu4 小时前
Flutter 本地 AI 相册工程收口:从屏幕常亮、标签体系到照片属性后台队列
大数据·人工智能·python·flutter·elasticsearch·搜索引擎·数据库架构