[Spark] 读取项目下resources/的文件

背景

这个spark程序要读取项目下的一些文件, 当我把这个项目打成jar包后, spark-submit到集群后执行

将文件作为资源文件打包到 JAR 中可以通过 Maven 或 sbt 这样的构建工具完成。以下是使用 Maven 的步骤:

  1. 首先,在你的 Maven 项目中创建一个目录(比如 src/main/resources)用来存放资源文件。

  2. 将需要打包的文件放入这个目录下
    src/main/resources/aaaaaa.txt

  3. 在 Maven 项目的 pom.xml 文件中,添加以下配置,告诉 Maven 应该将这些文件打包到 JAR 中:

xml 复制代码
<build>
    <resources>
        <resource>
            <directory>src/main/resources</directory>
            <includes>
                <include>**/*</include>
            </includes>
        </resource>
    </resources>
</build>
  1. 然后使用 mvn package 命令构建你的项目,Maven 会自动将资源文件打包到生成的 JAR 文件中。

在程序中,你可以使用 getResourceAsStream 方法来读取这些资源文件,例如:

scala 复制代码
val inputStream = getClass.getResourceAsStream("/aaaaaa.txt")
val fileContent = scala.io.Source.fromInputStream(inputStream).getLines().mkString("\n")

通过上述步骤,你就可以将文件作为资源文件打包到 JAR 中,并在程序中正常读取这些文件了。希望对你有所帮助!

相关推荐
小巫程序Demo日记13 分钟前
SparkUI依赖问题解决方法
java·spark
小巫程序Demo日记14 分钟前
Spark简介脑图
大数据·笔记·spark
武子康16 分钟前
大数据-14-Hive HQL 表连接查询 HDFS导入导出 逻辑运算 函数查询 全表查询
大数据·后端·apache hive
猿助码头qq35267469839 分钟前
django基于Spark的国漫推荐系统
ajax·spark·django
春马与夏40 分钟前
Spark on yarn的作业提交流程
大数据·分布式·spark
XiaoQiong.Zhang41 分钟前
Spark 性能调优七步法
大数据·分布式·spark
ApacheSeaTunnel43 分钟前
实测提速 60%!Maven Daemon 全面加速 SeaTunnel 编译打包效率
大数据·开源·数据集成·seatunnel·技术分享·maven daemon
jstart千语20 小时前
【Redisson】锁可重入原理
redis·分布式·redisson
哲讯智能科技21 小时前
苏州SAP代理商:哲讯科技助力企业数字化转型
大数据·运维·人工智能
Edingbrugh.南空21 小时前
Apache Iceberg与Hive集成:分区表篇
大数据·hive·hadoop