生态扩展Spark Doris Connector

生态扩展Spark Doris Connector

doris官网去查找相匹配的spark

spark的安装:

复制代码
tar -zxvf spark-3.1.2-bin-hadoop3.2.tgz
  mv spark-3.1.2-bin-hadoop3.2 /opt/spark

spark环境配置:vim /etc/profile

复制代码
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin

将编译好的spark-doris-connector-3.3_2.12-1.3.0-SNAPSHOT.jar复制到spark的jars目录

复制代码
cp spark-doris-connector-3.2_2.12-1.3.0-SNAPSHOT.jar /opt/spark/jars/

代码库地址:https://github.com/apache/doris-spark-connector

编译与安装

准备工作

修改custom_env.sh.tpl文件,重命名为custom_env.sh

在源码目录下执行: sh build.sh 根据提示输入你需要的 Scala 2.12与 Spark3.2.3 版本进行编译。

验证:

复制代码
scala> import org.apache.doris.spark._
import org.apache.doris.spark._

scala>

scala> val doris = spark.sql(
     |     s"""
     |     |CREATE TEMPORARY VIEW spark_doris
     |     |USING doris
     |     |OPTIONS(
     |     | "table.identifier"="demo.example_tbl",
     |     | "fenodes"="10.63.0.181:8030",
     |     | "user"="root",
     |     | "password"=""
     |     |);
     |     |""".stripMargin)
doris: org.apache.spark.sql.DataFrame = []

scala>

scala> spark.sql("SELECT * FROM spark_doris;").show
+-------+----------+----+---+---+-------------------+----+--------------+--------------+
|user_id|      date|city|age|sex|    last_visit_date|cost|max_dwell_time|min_dwell_time|
+-------+----------+----+---+---+-------------------+----+--------------+--------------+
|  10000|2017-10-01|北京| 20|  0|2017-10-01 07:00:00|  35|            10|             2|
|  10001|2017-10-01|北京| 30|  1|2017-10-01 17:05:45|   2|            22|            22|
|  10002|2017-10-02|上海| 20|  1|2017-10-02 12:59:12| 200|             5|             5|
|  10003|2017-10-02|广州| 32|  0|2017-10-02 11:20:00|  30|            11|            11|
|  10004|2017-10-01|深圳| 35|  0|2017-10-01 10:00:15| 100|             3|             3|
|  10004|2017-10-03|深圳| 35|  0|2017-10-03 10:20:22|  11|             6|             6|
+-------+----------+----+---+---+-------------------+----+--------------+--------------+


scala>
相关推荐
幻奏岚音8 分钟前
AI时代生产力变革与高效使用
大数据·人工智能·深度学习
hahdbk8 分钟前
口碑好的医疗设备外观设计选哪家
大数据·人工智能·python
团象科技10 分钟前
别盲目布局全球化,先理清海外云服务器能覆盖的业务边界
大数据·服务器·人工智能
TDengine (老段)11 分钟前
TDengine VNode 生命周期 — 从创建到销毁的完整旅程
大数据·数据库·重构·系统架构·负载均衡·tdengine·涛思数据
Elastic 中国社区官方博客17 分钟前
在 Kubernetes 上的 Elastic Cloud:简化的可用区感知、重启和 mTLS
大数据·数据库·搜索引擎·云原生·容器·kubernetes·全文检索
蜀道山老天师20 分钟前
Prometheus监控Hadoop集群(实操完整版,含避坑指南)
大数据·linux·运维·hadoop·云原生·prometheus
勤自省33 分钟前
ROS2分布式通信与Launch文件实战:从踩坑到打通(第12-20讲总结)
分布式·ubuntu·ros2·gazebo·launch·rqt·rviz2
Elastic 中国社区官方博客40 分钟前
通过项目标签和路由,在 Elasticsearch Serverless 中实现更快的跨项目搜索
大数据·elasticsearch·搜索引擎·云原生·serverless·全文检索
翼达口香糖1 小时前
当大模型吃掉你的App,从高德开放平台看AI服务重构
大数据·人工智能·深度学习·语言模型·数据分析·边缘计算
lizhihai_991 小时前
股市学习心得-量比的作用
大数据·人工智能·学习