Spark—shell,Hbase—shell

Spark:

SPARK SQL

results = spark.sql( "SELECT * FROM people")

//读取JSON文件

val userScoreDF = spark.read.json("hdfs://master:9000/people.json")

Spark内置函数的使用

除select()外,还可以使用filter()、groupBy()等方法对DataFrame数据进行过滤和分组,比如:

df.select("name").show()

df.select("name","age"+1).show() //age列值增1

df.filter($"age">20).show()

df.groupBy("age").count().show()

使用spark处理数据之后写入hive表:

使用saveAsTable()方法可以将一个DataFrame写入到指定的Hive表中。例如,加载students表的数据并转为DataFrame,然后将DataFrame写入Hive表hive_records中,代码:

//加载students表的数据为

DataFrame val studentsDF = spark.table("students")

//将DataFrame写入表hive_records中 studentsDF.write.mode(SaveMode.Overwrite).saveAsTable("hive_records")

//查询hive_records表数据并显示到控制

spark.sql("SELECT * FROM hive_records").show()

Hbase:

新建:

#新建表table_name,并且设置三个列组

create 'table_name','f1','f2','f3'

增 :

#在表table_name的r1行f1:c1列中添加数据

put 'table_name' ,'f1:c1', 'hello world'

删:

先使表无效,然后删除表

endable/disenable #使表有效或无效

#删除表

drop 'table_name'

改:

#将第一行cf列组中的score数值改为99

put 'course','001','cf:score','99'

查:

#查看表结构

describe 'table_name'

列出所有建立的表的名字

list

#列出表所有相关内容

scan 'table_name'

#查看第r1行,f1列组,c1的值

get 'table_name' ,'r1','f1:c1'

#查看第r1行,f1列组,c1的值

get 'table_name','r1','f1:c3'

相关推荐
得物技术3 天前
从埋点需求到规则资产:Hermes Agent 重构得物数仓工作流
大数据·llm·ai编程
久美子3 天前
AI驱动数仓建设的Harness工程实践——本体建模、知识分层与上下文工程
大数据
大树884 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
大志哥1234 天前
ES和Logstash日志链路系统上线后遭遇切片爆炸(解决)
大数据·elasticsearch
果丁智能4 天前
物联网智能锁赋能集中式住宿:身份核验与远程权限管控的全链路技术实践
大数据·人工智能·物联网·智能家居
ApacheSeaTunnel4 天前
实战演示 | 基于 Apache SeaTunnel 与 Apache DolphinScheduler 实现 MySQL 到 Doris 离线定时增量同步
大数据·mysql·开源·doris·数据集成·seatunnel·数据同步
weixin_397574094 天前
PDF复杂表格的1:1还原引擎:跨页表格自动拼接技术实战
大数据·人工智能·pdf
极光代码工作室4 天前
基于数据仓库的电商数据分析平台
大数据·hadoop·python·spark·数据可视化
秋名山码民4 天前
Graph RAG 深度解析:从向量检索到知识推理的技术演进
大数据·人工智能·rag
JLWcai202510094 天前
铸造领域树脂砂轮|金利威多场景解决方案,20 + 配方覆盖全需求
mongodb·zookeeper·eureka·spark·rabbitmq·memcached·storm