spark读mongodb

idea maven依赖

<dependency>

<groupId>org.mongodb.spark</groupId>

<artifactId>mongo-spark-connector_2.11</artifactId>

<version>2.3.2</version>

</dependency>

val mongoURL = s"mongodb://账号:密码@机器ip:27017"

val builder = SparkSession.builder()

builder.appName(appName)

builder.config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

builder.config("spark.rdd.compress", "true")

builder.config("dfs.client.socket-timeout", "300000")

//builder.master("local[1]") 本地跑打开

val spark= builder.getOrCreate()

import spark.implicits._

val source = spark.read.mongo(ReadConfig(Map("uri" -> mongoURL, "database" -> "", "collection" -> "", "batchSize" -> "30000")))

.select("x")

//解析

source.map(it => {

val x= it.getAs[String]("x")

x

})

相关推荐
小鸡脚来咯6 小时前
Git 新手入门指南
大数据·git·elasticsearch
说私域10 小时前
基于AI智能名片链动2+1模式服务预约商城系统的社群运营与顾客二次消费吸引策略研究
大数据·人工智能·小程序·开源·流量运营
塔能物联运维13 小时前
隧道照明“智能进化”:PLC 通信 + AI 调光守护夜间通行生命线
大数据·人工智能
highly200913 小时前
Gitflow
大数据·elasticsearch·搜索引擎
humors22114 小时前
韩秀云老师谈买黄金
大数据·程序人生
重生之绝世牛码14 小时前
Linux软件安装 —— SSH免密登录
大数据·linux·运维·ssh·软件安装·免密登录
StarChainTech15 小时前
无人机租赁平台:开启智能租赁新时代
大数据·人工智能·微信小程序·小程序·无人机·软件需求
Hello.Reader15 小时前
Flink DynamoDB Connector 用 Streams 做 CDC,用 BatchWriteItem 高吞吐写回
大数据·python·flink
早日退休!!!15 小时前
内存泄露(Memory Leak)核心原理与工程实践报告
大数据·网络
发哥来了15 小时前
主流AI视频生成工具商用化能力评测:五大关键维度对比分析
大数据·人工智能·音视频