spark读mongodb

idea maven依赖

<dependency>

<groupId>org.mongodb.spark</groupId>

<artifactId>mongo-spark-connector_2.11</artifactId>

<version>2.3.2</version>

</dependency>

val mongoURL = s"mongodb://账号:密码@机器ip:27017"

val builder = SparkSession.builder()

builder.appName(appName)

builder.config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

builder.config("spark.rdd.compress", "true")

builder.config("dfs.client.socket-timeout", "300000")

//builder.master("local[1]") 本地跑打开

val spark= builder.getOrCreate()

import spark.implicits._

val source = spark.read.mongo(ReadConfig(Map("uri" -> mongoURL, "database" -> "", "collection" -> "", "batchSize" -> "30000")))

.select("x")

//解析

source.map(it => {

val x= it.getAs[String]("x")

x

})

相关推荐
檀越剑指大厂3 小时前
【Elasticsearch系列廿】Logstash 学习
大数据·学习·elasticsearch
weixin_531651813 小时前
Elasticsearch 检索原理分析
大数据·elasticsearch·jenkins
教男朋友学大模型3 小时前
Agent效果该怎么评估?
大数据·人工智能·经验分享·面试·求职招聘
Hello.Reader4 小时前
Flink 自定义 Failure Enricher:把失败“打标签”,让告警、归因、统计更聪明
大数据·flink
培培说证5 小时前
2026 高职计算机专业证书报考条件是什么?
大数据
BlockWay5 小时前
西甲赛程搬进平台:WEEX以竞猜开启区域合作落地
大数据·人工智能·算法·安全
SailingCoder6 小时前
【 从“打补丁“到“换思路“ 】一次企业级 AI Agent 的架构拐点
大数据·前端·人工智能·面试·架构·agent
微风中的麦穗7 小时前
【SQL Server 2019】企业级数据库系统—数据库SQL Server 2019保姆级详细图文下载安装完全指南
大数据·数据库·sqlserver·云计算·个人开发·运维必备·sqlserver2019
qyresearch_7 小时前
圆形连接器外壳:全球市场格局、技术趋势与行业展望
大数据
海兰8 小时前
ES 9.3.0 模型上下文优化
大数据·elasticsearch·搜索引擎