spark读mongodb

idea maven依赖

<dependency>

<groupId>org.mongodb.spark</groupId>

<artifactId>mongo-spark-connector_2.11</artifactId>

<version>2.3.2</version>

</dependency>

val mongoURL = s"mongodb://账号:密码@机器ip:27017"

val builder = SparkSession.builder()

builder.appName(appName)

builder.config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

builder.config("spark.rdd.compress", "true")

builder.config("dfs.client.socket-timeout", "300000")

//builder.master("local[1]") 本地跑打开

val spark= builder.getOrCreate()

import spark.implicits._

val source = spark.read.mongo(ReadConfig(Map("uri" -> mongoURL, "database" -> "", "collection" -> "", "batchSize" -> "30000")))

.select("x")

//解析

source.map(it => {

val x= it.getAs[String]("x")

x

})

相关推荐
生活予甜7 分钟前
MINISH科技宣布迈向健康科技企业的新阶段
大数据·人工智能·科技
V搜xhliang02468 分钟前
自然语言理解与语音识别(ASR)
大数据·人工智能·机器学习·自然语言处理·机器人·语音识别·xcode
jerryinwuhan9 分钟前
Spark数据分析1_环境配置
大数据·数据分析·spark
V_vvVz13 分钟前
Infoseek:以智能舆情监测,为企业品牌筑牢安全防线
大数据·人工智能·科技
数据知道17 分钟前
MongoDB读取偏好配置:如何优化查询路由策略?
数据库·mongodb
l1122060321 分钟前
GEO 优化公司选品指南:江苏一网推的阶梯式服务核心竞争力
大数据·人工智能
爬山算法26 分钟前
MongoDB(43)什么是嵌入式文档?
数据库·mongodb
chatexcel36 分钟前
什么是AI的SOUL?如何定制专属AI助理
大数据·人工智能
数据知道1 小时前
MongoDB压缩算法选择:snappy, zlib, zstd性能与压缩比对比
数据库·mongodb
数据知道1 小时前
MongoDB内存使用优化:working set理论与缓存命中率提升策略
数据库·mongodb