spark读mongodb

idea maven依赖

<dependency>

<groupId>org.mongodb.spark</groupId>

<artifactId>mongo-spark-connector_2.11</artifactId>

<version>2.3.2</version>

</dependency>

val mongoURL = s"mongodb://账号:密码@机器ip:27017"

val builder = SparkSession.builder()

builder.appName(appName)

builder.config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

builder.config("spark.rdd.compress", "true")

builder.config("dfs.client.socket-timeout", "300000")

//builder.master("local[1]") 本地跑打开

val spark= builder.getOrCreate()

import spark.implicits._

val source = spark.read.mongo(ReadConfig(Map("uri" -> mongoURL, "database" -> "", "collection" -> "", "batchSize" -> "30000")))

.select("x")

//解析

source.map(it => {

val x= it.getAs[String]("x")

x

})

相关推荐
Data-Miner10 分钟前
精品PPT | 某制造集团灯塔工厂解决方案
大数据·人工智能·制造
小湘西36 分钟前
Elasticsearch 的一些默认配置上下限
java·大数据·elasticsearch
`林中水滴`1 小时前
SeaTunnel vs Flume
大数据·flume
边缘计算社区2 小时前
第12届全球边缘计算大会-精彩瞬间
大数据·人工智能·边缘计算
Zoey的笔记本2 小时前
告别“人机混战”:如何用智能管控实现安全高效协同
大数据·人工智能
奥利文儿2 小时前
【虚拟机】Ubuntu24安装Miniconda3全记录:避坑指南与实践
大数据·数据仓库·人工智能·数据库开发·etl·虚拟机·etl工程师
2401_835302482 小时前
精准测试赋能高端制造!陶瓷基板介电常数测试的核心价值
大数据·人工智能·制造
飞Link3 小时前
【Hadoop】Linux(CentOS7)下安装Hadoop集群
大数据·linux·hadoop·分布式
Dxy12393102163 小时前
Elasticsearch 8如何做好标题搜索
大数据·elasticsearch
飞Link4 小时前
【Hive】Linux(CentOS7)下安装Hive教程
大数据·linux·数据仓库·hive·hadoop