spark读mongodb

idea maven依赖

<dependency>

<groupId>org.mongodb.spark</groupId>

<artifactId>mongo-spark-connector_2.11</artifactId>

<version>2.3.2</version>

</dependency>

val mongoURL = s"mongodb://账号:密码@机器ip:27017"

val builder = SparkSession.builder()

builder.appName(appName)

builder.config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

builder.config("spark.rdd.compress", "true")

builder.config("dfs.client.socket-timeout", "300000")

//builder.master("local[1]") 本地跑打开

val spark= builder.getOrCreate()

import spark.implicits._

val source = spark.read.mongo(ReadConfig(Map("uri" -> mongoURL, "database" -> "", "collection" -> "", "batchSize" -> "30000")))

.select("x")

//解析

source.map(it => {

val x= it.getAs[String]("x")

x

})

相关推荐
CNRio24 分钟前
Day 55:Git的高级技巧:使用Git的worktree管理多个工作目录
大数据·git·elasticsearch
汤姆yu44 分钟前
基于python大数据的地震数据可视化分析系统
大数据·python·信息可视化
阿猿收手吧!1 小时前
【Elasticsearch】定义索引结构的核心 -- Mapping
大数据·elasticsearch·搜索引擎
风途知识百科1 小时前
太阳能杀虫灯——风吸式物联网杀虫灯
大数据·人工智能·物联网
wu_jing_sheng01 小时前
黑龙江省保险补贴Shapefile转换工具:GIS数据处理自动化实践
大数据·数据库·人工智能
_OP_CHEN1 小时前
【测试理论与实践】(七)吃透测试分类(中):执行方式 + 测试方法双维度拆解,从原理到实操全攻略
大数据
读创商闻2 小时前
中广融投让传统文化 “活” 起来
大数据·网络·人工智能
大任视点2 小时前
云南首家现代农事综合服务中心在普洱思茅落户
大数据·人工智能
一直在追2 小时前
大数据转型的“降维打击”:当分布式架构遇上向量数据库 (Milvus & ES 实战)
大数据·数据库
豆豆3 小时前
2026年建设网站的十个步骤
大数据·cms·网站建设·网站制作·低代码平台·建站·网站设计