spark读mongodb

idea maven依赖

<dependency>

<groupId>org.mongodb.spark</groupId>

<artifactId>mongo-spark-connector_2.11</artifactId>

<version>2.3.2</version>

</dependency>

val mongoURL = s"mongodb://账号:密码@机器ip:27017"

val builder = SparkSession.builder()

builder.appName(appName)

builder.config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

builder.config("spark.rdd.compress", "true")

builder.config("dfs.client.socket-timeout", "300000")

//builder.master("local[1]") 本地跑打开

val spark= builder.getOrCreate()

import spark.implicits._

val source = spark.read.mongo(ReadConfig(Map("uri" -> mongoURL, "database" -> "", "collection" -> "", "batchSize" -> "30000")))

.select("x")

//解析

source.map(it => {

val x= it.getAs[String]("x")

x

})

相关推荐
语落心生3 小时前
流式数据湖Paimon探秘之旅 (七) 读取流程全解析
大数据
语落心生3 小时前
流式数据湖Paimon探秘之旅 (二) 存储模型与文件组织
大数据
n***78683 小时前
PostgreSQL 中进行数据导入和导出
大数据·数据库·postgresql
语落心生3 小时前
流式数据湖Paimon探秘之旅 (四) FileStore存储引擎核心
大数据
语落心生3 小时前
流式数据湖Paimon探秘之旅 (三) Catalog体系深度解析
大数据
语落心生3 小时前
流式数据湖Paimon探秘之旅 (六) 提交流程与事务保证
大数据
梦里不知身是客113 小时前
容量调度器
大数据
白狐_7983 小时前
基于 MySQL + MongoDB 的在线考试系统数据库设计与实现
数据库·mysql·mongodb
跨境海外仓小秋3 小时前
仓库如何实现自动汇总订单波次?TOPWMS波次规则助力海外仓拣货效率翻倍
大数据
民乐团扒谱机3 小时前
【微实验】携程评论C#爬取实战:突破JavaScript动态加载与反爬虫机制
大数据·开发语言·javascript·爬虫·c#