spark-sql 备忘录

wordcount

bash 复制代码
sc.textFile("../data/data.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

读取json 文件 并通过sql 执行 join 查询

java 复制代码
public static void main(String[] args) {
        SparkSession session = SparkSession.builder().master("local")
                .appName("master").getOrCreate();
        Dataset<Row> df = session.read().json("./data/user2.json");
//        json.show();
        df.createOrReplaceTempView("user");

        Dataset<Row> df2 = session.read().json("./data/dept.json");
        df2.createOrReplaceTempView("dept");
        Dataset<Row> result = session.sql("select u.id,u.name,d.name dname from user u left join dept d" +
                " on u.deptno= d.id" +
                "");
//        result.show();
//        result.collectAsList().forEach(System.out::println);
       result.write().csv("data/result2");
       session.close();
    }

jdbc 导出csv

bash 复制代码
public static void main(String[] args) {
        SparkSession session = SparkSession.builder().master("local")
                .appName("master").getOrCreate();
        Properties connectionProperties = new Properties();
        connectionProperties.put("user", "root");
        connectionProperties.put("password", "root");
        Long start = System.currentTimeMillis();
        Dataset<Row> report = session.read().jdbc("jdbc:mysql://localhost:3306/test",
                "idms_user", connectionProperties).filter("createDate is not null");

        report.write().option("header", true).mode("overwrite").csv("data/idms_user");
        long end = System.currentTimeMillis();
        System.out.println("cost:" + (end - start)+"ms");
        session.close();
    }

jdbc 通过sql 查询 函数处理

java 复制代码
/*
 jdbc  通过sql 查询  函数处理
*/ 
public static void main(String[] args) {
        SparkSession session = SparkSession.builder().master("local")
                .appName("master").getOrCreate();
        Properties connectionProperties = new Properties();
        connectionProperties.put("user", "root");
        connectionProperties.put("password", "root");
        Long start = System.currentTimeMillis();
        Dataset<Row> report = session.read().jdbc("jdbc:mysql://localhost:3306/test",
                "report", connectionProperties);
        report.createOrReplaceTempView("report");

        Dataset<Row> result = session.
                sql("select id,date_format(created_at,'yyyy-MM-dd') createDate ,title " +
                        " , date_format(now(),'yyyy-MM-dd') nowDate" +
                        " ,datediff(now(),created_at) days"+
                        " from report where age>12");

        result.show();
        session.close();
    }
相关推荐
云飞云共享云桌面14 分钟前
东莞精密机械制造工厂如何10个SolidWorks共用一台服务器资源
java·运维·服务器·网络·数据库·电脑·制造
ActionTech23 分钟前
2025 年 9 月《大模型 SQL 能力排行榜》发布,新增 Kimi K2 最新版测评!
数据库·sql·ai·oracle
九皇叔叔1 小时前
Linux 系统配置 NTP 服务:轻松同步阿里云时间服务器
linux·服务器·阿里云
恒创科技HK1 小时前
香港服务器速度快慢受何影响?
运维·服务器·前端
wanhengidc2 小时前
移动端云手机的优势都有哪些?
运维·服务器·游戏·智能手机·云计算
半夏知半秋2 小时前
skynet debug_console控制台中debug指令使用
服务器·开发语言·学习·lua
liulilittle2 小时前
Linux 内核网络调优:单连接大带宽吞吐配置
linux·运维·服务器·网络·信息与通信·通信
IT毕设梦工厂2 小时前
大数据毕业设计选题推荐-基于大数据的人体生理指标管理数据可视化分析系统-Hadoop-Spark-数据可视化-BigData
大数据·hadoop·信息可视化·spark·毕业设计·源码·bigdata
EEE1even2 小时前
Mac查看本机发出请求的IP地址
服务器·网络·mac
Amelio_Ming3 小时前
systemd-journald和rsyslogd日志配置详解
linux·运维·服务器