spark读mongodb

idea maven依赖

<dependency>

<groupId>org.mongodb.spark</groupId>

<artifactId>mongo-spark-connector_2.11</artifactId>

<version>2.3.2</version>

</dependency>

val mongoURL = s"mongodb://账号:密码@机器ip:27017"

val builder = SparkSession.builder()

builder.appName(appName)

builder.config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

builder.config("spark.rdd.compress", "true")

builder.config("dfs.client.socket-timeout", "300000")

//builder.master("local[1]") 本地跑打开

val spark= builder.getOrCreate()

import spark.implicits._

val source = spark.read.mongo(ReadConfig(Map("uri" -> mongoURL, "database" -> "", "collection" -> "", "batchSize" -> "30000")))

.select("x")

//解析

source.map(it => {

val x= it.getAs[String]("x")

x

})

相关推荐
良策金宝AI2 小时前
让端子排接线图“智能生成”,良策金宝AI推出变电站二次智能设计引擎
大数据·人工智能·工程设计·变电站ai
a285282 小时前
nginx的重定向
大数据·数据库·nginx
yhdata3 小时前
锁定2032年!区熔硅单晶市场规模有望达71.51亿元,赛道前景持续向好
大数据·人工智能
ASKED_20194 小时前
企业级大模型微调(Fine-tuning)策略
大数据·人工智能·算法
琅琊榜首20205 小时前
AI+编程思维:高质量短剧脚本高效撰写实操指南
大数据·人工智能·深度学习
紫郢剑侠5 小时前
使用Samba服务让kylin| 银河麒麟系统电脑向Windows系统电脑共享文件(下)Windows系统端配置
大数据·kylin
智能零售小白白7 小时前
零售多平台商品数据标准化:从字段混乱到一键同步的技术实践
大数据·零售
龙山云仓8 小时前
No153:AI中国故事-对话毕昇——活字印刷与AI知识生成:模块化思想与信息革
大数据·人工智能·机器学习
雪兽软件8 小时前
什么是大数据?定义、类型、重要性和最佳实践
大数据
狒狒热知识8 小时前
2026年软文营销发稿平台优选指南:聚焦178软文网解锁高效传播新路径
大数据·人工智能