spark读mongodb

idea maven依赖

<dependency>

<groupId>org.mongodb.spark</groupId>

<artifactId>mongo-spark-connector_2.11</artifactId>

<version>2.3.2</version>

</dependency>

val mongoURL = s"mongodb://账号:密码@机器ip:27017"

val builder = SparkSession.builder()

builder.appName(appName)

builder.config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

builder.config("spark.rdd.compress", "true")

builder.config("dfs.client.socket-timeout", "300000")

//builder.master("local[1]") 本地跑打开

val spark= builder.getOrCreate()

import spark.implicits._

val source = spark.read.mongo(ReadConfig(Map("uri" -> mongoURL, "database" -> "", "collection" -> "", "batchSize" -> "30000")))

.select("x")

//解析

source.map(it => {

val x= it.getAs[String]("x")

x

})

相关推荐
数据智研1 天前
【数据分享】腾格里沙漠空间矢量范围
大数据·信息可视化·数据分析
智能化咨询1 天前
(68页PPT)埃森哲XX集团用户主数据治理项目汇报方案(附下载方式)
大数据·人工智能
数据智研1 天前
【数据分享】毛乌素沙地(毛乌素沙漠)空间矢量范围
大数据·人工智能·信息可视化·数据分析
TinpeaV1 天前
Elasticsearch8(ES)保姆级菜鸟入门教程
大数据·spring boot·elasticsearch·搜索引擎·全文检索·postman
专注数据的痴汉1 天前
「数据获取」江门统计年鉴(1997-2024)
大数据·人工智能·信息可视化
小王毕业啦1 天前
2000-2023年 地级市-公路运输相关数据
大数据·人工智能·数据挖掘·数据分析·数据统计·社科数据·实证数据
Element_南笙1 天前
吴恩达新课程:Agentic AI(笔记11)
大数据·人工智能·笔记·算法·机器学习
paperxie_xiexuo1 天前
文献综述不是写作任务,而是一次“认知脚手架”的搭建:PaperXie 如何通过结构化输入,帮你把碎片阅读转化为可辩护的学术立场?
大数据·人工智能·ai写作
B站_计算机毕业设计之家1 天前
python招聘数据 求职就业数据可视化平台 大数据毕业设计 BOSS直聘数据可视化分析系统 Flask框架 Echarts可视化 selenium爬虫技术✅
大数据·python·深度学习·考研·信息可视化·数据分析·flask
袋鼠云数栈1 天前
官宣!ChunJun 1.16 Release 版本发布!
大数据·经验分享·大模型