Spark—shell,Hbase—shell

Spark:

SPARK SQL

results = spark.sql( "SELECT * FROM people")

//读取JSON文件

val userScoreDF = spark.read.json("hdfs://master:9000/people.json")

Spark内置函数的使用

除select()外,还可以使用filter()、groupBy()等方法对DataFrame数据进行过滤和分组,比如:

df.select("name").show()

df.select("name","age"+1).show() //age列值增1

df.filter($"age">20).show()

df.groupBy("age").count().show()

使用spark处理数据之后写入hive表:

使用saveAsTable()方法可以将一个DataFrame写入到指定的Hive表中。例如,加载students表的数据并转为DataFrame,然后将DataFrame写入Hive表hive_records中,代码:

//加载students表的数据为

DataFrame val studentsDF = spark.table("students")

//将DataFrame写入表hive_records中 studentsDF.write.mode(SaveMode.Overwrite).saveAsTable("hive_records")

//查询hive_records表数据并显示到控制

spark.sql("SELECT * FROM hive_records").show()

Hbase:

新建:

#新建表table_name,并且设置三个列组

create 'table_name','f1','f2','f3'

增 :

#在表table_name的r1行f1:c1列中添加数据

put 'table_name' ,'f1:c1', 'hello world'

删:

先使表无效,然后删除表

endable/disenable #使表有效或无效

#删除表

drop 'table_name'

改:

#将第一行cf列组中的score数值改为99

put 'course','001','cf:score','99'

查:

#查看表结构

describe 'table_name'

列出所有建立的表的名字

list

#列出表所有相关内容

scan 'table_name'

#查看第r1行,f1列组,c1的值

get 'table_name' ,'r1','f1:c1'

#查看第r1行,f1列组,c1的值

get 'table_name','r1','f1:c3'

相关推荐
逸Y 仙X10 分钟前
文章二十九:ElasticSearch分桶聚合
android·大数据·elasticsearch·搜索引擎·全文检索
财经资讯数据_灵砚智能22 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年5月16日
大数据·人工智能·python·信息可视化·自然语言处理
AI周红伟27 分钟前
All in Token,移动,电信和联通,华为,阿里,百度,字节,卖Token Plan,卖算力时代结束,卖智力时代来了:Token经济万亿赛道全景解码
大数据·人工智能·机器学习·百度·华为·copilot·openclaw
Volunteer Technology29 分钟前
MapReduce 介绍
大数据·mapreduce
workflower29 分钟前
AI能源智慧生产与绿色开发核心场景
大数据·人工智能·设计模式·机器人·软件工程·能源
幻奏岚音1 小时前
AI时代生产力变革与高效使用
大数据·人工智能·深度学习
hahdbk1 小时前
口碑好的医疗设备外观设计选哪家
大数据·人工智能·python
团象科技1 小时前
别盲目布局全球化,先理清海外云服务器能覆盖的业务边界
大数据·服务器·人工智能
TDengine (老段)1 小时前
TDengine VNode 生命周期 — 从创建到销毁的完整旅程
大数据·数据库·重构·系统架构·负载均衡·tdengine·涛思数据
Elastic 中国社区官方博客1 小时前
在 Kubernetes 上的 Elastic Cloud:简化的可用区感知、重启和 mTLS
大数据·数据库·搜索引擎·云原生·容器·kubernetes·全文检索