Spark—shell,Hbase—shell

Spark:

SPARK SQL

results = spark.sql( "SELECT * FROM people")

//读取JSON文件

val userScoreDF = spark.read.json("hdfs://master:9000/people.json")

Spark内置函数的使用

除select()外,还可以使用filter()、groupBy()等方法对DataFrame数据进行过滤和分组,比如:

df.select("name").show()

df.select("name","age"+1).show() //age列值增1

df.filter($"age">20).show()

df.groupBy("age").count().show()

使用spark处理数据之后写入hive表:

使用saveAsTable()方法可以将一个DataFrame写入到指定的Hive表中。例如,加载students表的数据并转为DataFrame,然后将DataFrame写入Hive表hive_records中,代码:

//加载students表的数据为

DataFrame val studentsDF = spark.table("students")

//将DataFrame写入表hive_records中 studentsDF.write.mode(SaveMode.Overwrite).saveAsTable("hive_records")

//查询hive_records表数据并显示到控制

spark.sql("SELECT * FROM hive_records").show()

Hbase:

新建:

#新建表table_name,并且设置三个列组

create 'table_name','f1','f2','f3'

增 :

#在表table_name的r1行f1:c1列中添加数据

put 'table_name' ,'f1:c1', 'hello world'

删:

先使表无效,然后删除表

endable/disenable #使表有效或无效

#删除表

drop 'table_name'

改:

#将第一行cf列组中的score数值改为99

put 'course','001','cf:score','99'

查:

#查看表结构

describe 'table_name'

列出所有建立的表的名字

list

#列出表所有相关内容

scan 'table_name'

#查看第r1行,f1列组,c1的值

get 'table_name' ,'r1','f1:c1'

#查看第r1行,f1列组,c1的值

get 'table_name','r1','f1:c3'

相关推荐
Evand J7 分钟前
【论文复现】MATLAB例程,存在测距误差的WSN无锚点分布式自定位,《WSN中存在测距误差的无锚点分布式自定位方法》
开发语言·分布式·matlab·定位·导航·wsn
littlebigbar19 分钟前
功能测试中的“精准打击“:避免大而全的实用策略 (2)
大数据
Geeys22 分钟前
淘宝电商运营新手入门完整教程|零基础开店引流
大数据·网络·人工智能
泛普软件34 分钟前
工程公司项目管理系统选型要点,解决项目超支工期拖延难题
大数据·软件需求
Elastic 中国社区官方博客1 小时前
跟踪资金流向:使用 ES|QL 和跨集群搜索追踪洗钱网络
大数据·人工智能·安全·elasticsearch·搜索引擎·金融·全文检索
TTBIGDATA1 小时前
【Ambari Plus】10.HBase 安装
大数据·运维·hadoop·ambari·hdp·cdh·bigtop
格子软件1 小时前
2026年分布式GEO代理流量调度:源码级状态机防重挂实战
java·vue.js·人工智能·spring boot·分布式·vue
2301_801184751 小时前
kafka-zookeeper
分布式·zookeeper·kafka
汤姆yu2 小时前
macOS系统下Aider完整安装、配置与实战使用教程
大数据·人工智能·算法·macos·github·copilot
长和信泰光伏储能2 小时前
探索未来能源:光伏储能技术解析
大数据·人工智能·能源