spark读mongodb

idea maven依赖

<dependency>

<groupId>org.mongodb.spark</groupId>

<artifactId>mongo-spark-connector_2.11</artifactId>

<version>2.3.2</version>

</dependency>

val mongoURL = s"mongodb://账号:密码@机器ip:27017"

val builder = SparkSession.builder()

builder.appName(appName)

builder.config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

builder.config("spark.rdd.compress", "true")

builder.config("dfs.client.socket-timeout", "300000")

//builder.master("local[1]") 本地跑打开

val spark= builder.getOrCreate()

import spark.implicits._

val source = spark.read.mongo(ReadConfig(Map("uri" -> mongoURL, "database" -> "", "collection" -> "", "batchSize" -> "30000")))

.select("x")

//解析

source.map(it => {

val x= it.getAs[String]("x")

x

})

相关推荐
武子康4 分钟前
大数据-273 Spark MLib-决策树分类算法详解:ID3、C4.5、CART 与剪枝原理
大数据·后端·spark
财经资讯数据_灵砚智能6 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年4月20日
大数据·人工智能·python·信息可视化·自然语言处理
张家锋23 分钟前
Apache Iceberg vs Apache Paimon :数据湖表格式深度对比与选型指南
大数据·数据分析·spark
实在智能RPA43 分钟前
电商运营自动化AI工具有哪些?哪个最好用?——2026年全链路智能体选型深度指南
大数据·人工智能·ai·自动化
在秃头的路上啊1 小时前
数据库下Lambda 架构(spark+flink)
架构·flink·spark
刘佬GEO1 小时前
没时间写内容还能做 GEO:方法、流程与可操作方案
大数据·网络·人工智能·搜索引擎·ai
csgo打的菜又爱玩1 小时前
6.MetricService 启动流程解析
大数据·flink
智慧景区与市集主理人1 小时前
市集分账混乱?巨有科技智慧小程序实现统一收款、自动分账
大数据·科技·小程序
YangYang9YangYan1 小时前
大数据时代数据分析的价值与前景
大数据·数据挖掘·数据分析
Roselind_Yi2 小时前
云计算实验实操|Hadoop伪分布式部署+MapReduce编程实践(超详细图文版)
大数据·hadoop·经验分享·笔记·分布式·数据挖掘·云计算