spark读mongodb

idea maven依赖

<dependency>

<groupId>org.mongodb.spark</groupId>

<artifactId>mongo-spark-connector_2.11</artifactId>

<version>2.3.2</version>

</dependency>

val mongoURL = s"mongodb://账号:密码@机器ip:27017"

val builder = SparkSession.builder()

builder.appName(appName)

builder.config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

builder.config("spark.rdd.compress", "true")

builder.config("dfs.client.socket-timeout", "300000")

//builder.master("local[1]") 本地跑打开

val spark= builder.getOrCreate()

import spark.implicits._

val source = spark.read.mongo(ReadConfig(Map("uri" -> mongoURL, "database" -> "", "collection" -> "", "batchSize" -> "30000")))

.select("x")

//解析

source.map(it => {

val x= it.getAs[String]("x")

x

})

相关推荐
Lx35237 分钟前
Hadoop数据处理模式:批处理与流处理结合技巧
大数据·hadoop
城管不管1 小时前
搭建分片集群
大数据·数据库
刘一说1 小时前
Elasticsearch启动失败?5步修复权限问题
大数据·elasticsearch·jenkins
刘一说1 小时前
Elasticsearch安装启动常见问题全解析
大数据·elasticsearch·jenkins
Yeats_Liao2 小时前
物联网平台中的MongoDB(一)服务模块设计与架构实现
物联网·mongodb·架构
一水鉴天2 小时前
整体设计 之 绪 思维导图引擎 之 引 认知系统 之8 之 序 认知元架构 之4 统筹:范畴/分类/目录/条目 之2 (豆包助手 之6)
大数据·架构·认知科学
计算机编程-吉哥4 小时前
大数据毕业设计-基于大数据的健康饮食推荐数据分析与可视化系统(高分计算机毕业设计选题·定制开发·真正大数据)
大数据·毕业设计·计算机毕业设计选题·机器学习毕业设计·大数据毕业设计·大数据毕业设计选题推荐·大数据毕设项目
麦兜*4 小时前
MongoDB 备份与恢复终极指南:mongodump 和 mongorestore 深度实战
java·数据库·spring boot·mongodb·spring
用户7415517014774 小时前
基础语法和数据类型
大数据
武子康4 小时前
大数据-94 Spark核心三剑客:RDD、DataFrame、Dataset与SparkSession全面解析
大数据·后端·spark