Spark—shell,Hbase—shell

Spark:

SPARK SQL

results = spark.sql( "SELECT * FROM people")

//读取JSON文件

val userScoreDF = spark.read.json("hdfs://master:9000/people.json")

Spark内置函数的使用

除select()外,还可以使用filter()、groupBy()等方法对DataFrame数据进行过滤和分组,比如:

df.select("name").show()

df.select("name","age"+1).show() //age列值增1

df.filter($"age">20).show()

df.groupBy("age").count().show()

使用spark处理数据之后写入hive表:

使用saveAsTable()方法可以将一个DataFrame写入到指定的Hive表中。例如,加载students表的数据并转为DataFrame,然后将DataFrame写入Hive表hive_records中,代码:

//加载students表的数据为

DataFrame val studentsDF = spark.table("students")

//将DataFrame写入表hive_records中 studentsDF.write.mode(SaveMode.Overwrite).saveAsTable("hive_records")

//查询hive_records表数据并显示到控制

spark.sql("SELECT * FROM hive_records").show()

Hbase:

新建:

#新建表table_name,并且设置三个列组

create 'table_name','f1','f2','f3'

增 :

#在表table_name的r1行f1:c1列中添加数据

put 'table_name' ,'f1:c1', 'hello world'

删:

先使表无效,然后删除表

endable/disenable #使表有效或无效

#删除表

drop 'table_name'

改:

#将第一行cf列组中的score数值改为99

put 'course','001','cf:score','99'

查:

#查看表结构

describe 'table_name'

列出所有建立的表的名字

list

#列出表所有相关内容

scan 'table_name'

#查看第r1行,f1列组,c1的值

get 'table_name' ,'r1','f1:c1'

#查看第r1行,f1列组,c1的值

get 'table_name','r1','f1:c3'

相关推荐
段一凡-华北理工大学2 小时前
LangChain框架在高炉炼铁智能化领域的应用~系列文章02:从Prompt开始,让大模型听懂高炉的“黑话“
大数据·人工智能·学习·架构·langchain·prompt·高炉炼铁
真上帝的左手2 小时前
19. 大数据-数据治理-数据标准
大数据·数据分析
cxr8282 小时前
蜂群智能系统中“非必要不添加“原则的有效性再审视:基于分布式决策与通信复杂度的理论推导
人工智能·分布式·智能体
bIo7lyA8v2 小时前
算法工程中的可扩展性与分布式实现方案的技术8
分布式
我登哥MVP2 小时前
SpringCloud 核心组件解析:分布式配置管理
java·spring boot·分布式·spring·spring cloud·java-ee·maven
Haibakeji2 小时前
长沙定制开发教育APP哪家软件公司强
大数据·人工智能
一生了无挂2 小时前
深度解析Token、RAG与Agent的层级逻辑、协作关系及落地价值
大数据·人工智能
IT策士2 小时前
Redis 从入门到精通:分布式锁 —— 从 SETNX 到 Redlock
数据库·redis·分布式
JieDavid3 小时前
专利流程岗上岸实录|奇智创达知识产权系统实操经验分享
大数据·运维·人工智能·经验分享·产品运营·产品经理
汤姆yu3 小时前
云知声 U2 原生智能体大模型深度解析
大数据·人工智能·算法·ai·大模型·多模态·智能体