计算机毕业设计hadoop+spark+hive物流大数据分析平台 物流预测系统 物流信息爬虫 物流大数据 机器学习 深度学习

流程:

1.Python爬虫采集物流数据等存入mysql和.csv文件;

2.使用pandas+numpy或者MapReduce对上面的数据集进行数据清洗生成最终上传到hdfs;

3.使用hive数据仓库完成建库建表导入.csv数据集;

4.使用hive之hive_sql进行离线计算,使用spark之scala进行实时计算;

5.将计算指标使用sqoop工具导入mysql;

6.使用Flask+echarts进行可视化大屏实现、数据查询表格实现、含预测算法;

核心算法代码分享如下:

Scala 复制代码
package com.car.process

import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}

object Table01 {

  def main(args: Array[String]): Unit = {


    // 创建spark入口   读取hive的元数据  查询hive中ods层的表
    val hiveSession: SparkSession = SparkSession.builder()
      .appName("table01")
      .master("local")
      .config("spark.hadoop.hive.metastore.uris", "thrift://bigdata:9083")
      .enableHiveSupport()
      .getOrCreate();


    /**
     * insert overwrite table tables01
     * select province,count(1) num
     * from  ods_comments
     * group by province
     */

    // 网友分布中国地图
    val dataFrame: DataFrame = hiveSession.sql(
      """
        |select from_province,count(1) num
        |from  hive_chinawutong.ods_chinawutong
        |group by from_province
        |""".stripMargin)


    dataFrame.show()


    // 写入到mysql中
    dataFrame
      .write
      .format("jdbc")
      .option("url", "jdbc:mysql://bigdata:3306/hive_chinawutong?useSSL=false")
      .option("user", "root")
      .option("password", "123456")
      .option("driver", "com.mysql.jdbc.Driver")
      .option("dbtable", "table01")
      .mode(SaveMode.Overwrite)
      .save()

  }

}
相关推荐
paperxie_xiexuo1 小时前
七款 AI PPT 工具新解:智能驱动演示升级,解锁多元创作场景
大数据·人工智能·powerpoint·大学生·ppt
q***76662 小时前
显卡(Graphics Processing Unit,GPU)架构详细解读
大数据·网络·架构
九河云2 小时前
不同级别华为云代理商的增值服务内容与质量差异分析
大数据·服务器·人工智能·科技·华为云
阿里云大数据AI技术2 小时前
【跨国数仓迁移最佳实践 12】阿里云 MaxCompute 实现 BigQuery 10 万条 SQL 智能转写迁移
大数据·sql
Elastic 中国社区官方博客2 小时前
Elasticsearch:Microsoft Azure AI Foundry Agent Service 中用于提供可靠信息和编排的上下文引擎
大数据·人工智能·elasticsearch·microsoft·搜索引擎·全文检索·azure
DolphinScheduler社区3 小时前
结项报告完整版 | 为 Apache DolphinScheduler 添加 gRPC 插件
大数据·开源·apache·海豚调度·大数据工作流调度
Faith_xzc3 小时前
Doris内存问题指南:监控、原理与高频OOM解决方案
大数据·性能优化·doris
学习吖3 小时前
vue中封装的函数常用方法(持续更新)
大数据·javascript·vue.js·ajax·前端框架
Saniffer_SH4 小时前
通过近期测试简单聊一下究竟是直接选择Nvidia Spark还是4090/5090 GPU自建环境
大数据·服务器·图像处理·人工智能·驱动开发·spark·硬件工程
字节跳动数据平台4 小时前
火山引擎多模态数据湖,破解智能驾驶数据处理瓶颈
大数据