spark读mongodb

idea maven依赖

<dependency>

<groupId>org.mongodb.spark</groupId>

<artifactId>mongo-spark-connector_2.11</artifactId>

<version>2.3.2</version>

</dependency>

val mongoURL = s"mongodb://账号:密码@机器ip:27017"

val builder = SparkSession.builder()

builder.appName(appName)

builder.config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

builder.config("spark.rdd.compress", "true")

builder.config("dfs.client.socket-timeout", "300000")

//builder.master("local[1]") 本地跑打开

val spark= builder.getOrCreate()

import spark.implicits._

val source = spark.read.mongo(ReadConfig(Map("uri" -> mongoURL, "database" -> "", "collection" -> "", "batchSize" -> "30000")))

.select("x")

//解析

source.map(it => {

val x= it.getAs[String]("x")

x

})

相关推荐
vx153027823624 小时前
CDGA|企业数据治理实战:从疏通“信息河”到打造优质“数据湖”
java·大数据·人工智能·cdga·数据治理
AIRIOT5 小时前
AIRIOT智慧消防管理解决方案
大数据
哔哩哔哩技术6 小时前
ClickHouse BSI与字典服务在B站商业化DMP中的应用实践
大数据
想做富婆7 小时前
数仓搭建(hive):DM搭建(数据集市层)
大数据·数仓搭建
python资深爱好者8 小时前
使用机器学习算法进行大数据预测或分类的案例
大数据·算法·机器学习
B站计算机毕业设计超人8 小时前
计算机毕业设计Python农产品推荐系统 农产品爬虫 农产品可视化 农产品大数据(源码+LW文档+PPT+讲解)
大数据·python·机器学习·网络爬虫·课程设计·数据可视化·推荐算法
{⌐■_■}9 小时前
【git】提交修改、回撤、回滚、Tag 操作讲解,与reset (--soft、--mixed、--hard) 的区别
大数据·git·elasticsearch
一张假钞9 小时前
MongoDB between ... and ... 操作
数据库·mongodb
奔跑吧邓邓子9 小时前
【Python爬虫(23)】探秘Python爬虫数据存储:MongoDB实战指南
开发语言·爬虫·python·mongodb·实战