生态扩展Spark Doris Connector

生态扩展Spark Doris Connector

doris官网去查找相匹配的spark

spark的安装:

复制代码
tar -zxvf spark-3.1.2-bin-hadoop3.2.tgz
  mv spark-3.1.2-bin-hadoop3.2 /opt/spark

spark环境配置:vim /etc/profile

复制代码
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin

将编译好的spark-doris-connector-3.3_2.12-1.3.0-SNAPSHOT.jar复制到spark的jars目录

复制代码
cp spark-doris-connector-3.2_2.12-1.3.0-SNAPSHOT.jar /opt/spark/jars/

代码库地址:https://github.com/apache/doris-spark-connector

编译与安装

准备工作

修改custom_env.sh.tpl文件,重命名为custom_env.sh

在源码目录下执行: sh build.sh 根据提示输入你需要的 Scala 2.12与 Spark3.2.3 版本进行编译。

验证:

复制代码
scala> import org.apache.doris.spark._
import org.apache.doris.spark._

scala>

scala> val doris = spark.sql(
     |     s"""
     |     |CREATE TEMPORARY VIEW spark_doris
     |     |USING doris
     |     |OPTIONS(
     |     | "table.identifier"="demo.example_tbl",
     |     | "fenodes"="10.63.0.181:8030",
     |     | "user"="root",
     |     | "password"=""
     |     |);
     |     |""".stripMargin)
doris: org.apache.spark.sql.DataFrame = []

scala>

scala> spark.sql("SELECT * FROM spark_doris;").show
+-------+----------+----+---+---+-------------------+----+--------------+--------------+
|user_id|      date|city|age|sex|    last_visit_date|cost|max_dwell_time|min_dwell_time|
+-------+----------+----+---+---+-------------------+----+--------------+--------------+
|  10000|2017-10-01|北京| 20|  0|2017-10-01 07:00:00|  35|            10|             2|
|  10001|2017-10-01|北京| 30|  1|2017-10-01 17:05:45|   2|            22|            22|
|  10002|2017-10-02|上海| 20|  1|2017-10-02 12:59:12| 200|             5|             5|
|  10003|2017-10-02|广州| 32|  0|2017-10-02 11:20:00|  30|            11|            11|
|  10004|2017-10-01|深圳| 35|  0|2017-10-01 10:00:15| 100|             3|             3|
|  10004|2017-10-03|深圳| 35|  0|2017-10-03 10:20:22|  11|             6|             6|
+-------+----------+----+---+---+-------------------+----+--------------+--------------+


scala>
相关推荐
AI医影跨模态组学33 分钟前
NPJ Precis Oncol(IF=8)复旦大学肿瘤医院等团队:基于生境CT放射组学解析可切除非小细胞肺癌时空异质性预测新辅助化疗免疫治疗病理反应
大数据·人工智能·算法·医学·医学影像
cy_cy00244 分钟前
互动地面投影:优化展厅动线的智能向导
大数据·科技·人机交互·交互·软件构建
GEO-optimize1 小时前
2026年上海GEO服务商实力测评与选型指南
大数据·网络·人工智能·geo
少许极端1 小时前
消息队列4-RabbitMQ的高级特性-TTL机制、死信队列、延迟队列
分布式·消息队列·rabbitmq
Elastic 中国社区官方博客1 小时前
LINQ 到 ES|QL:使用 C# 查询 Elasticsearch
大数据·数据库·sql·elasticsearch·搜索引擎·全文检索·linq
kuankeTech1 小时前
从能用到专业:外贸软件AI赋能业务全链路,让管理更智能、更简单
大数据·人工智能·制造·软件开发·erp
xcLeigh2 小时前
KES数据库从入门到精通:零基础起步,全面掌握KES核心基础
大数据·数据库·sql·数据分析·国产数据库·kes
小五传输2 小时前
汽车供应商协同平台如何重塑主机厂与供应商的数字化纽带?
大数据·运维·安全
Agent产品评测局2 小时前
保险行业自动化工具选型,核保理赔全流程优化:2026年大模型Agent重塑数智金融新基座
大数据·人工智能·ai·金融·自动化