计算机毕业设计hadoop+spark+hive物流大数据分析平台 物流预测系统 物流信息爬虫 物流大数据 机器学习 深度学习

流程:

1.Python爬虫采集物流数据等存入mysql和.csv文件;

2.使用pandas+numpy或者MapReduce对上面的数据集进行数据清洗生成最终上传到hdfs;

3.使用hive数据仓库完成建库建表导入.csv数据集;

4.使用hive之hive_sql进行离线计算,使用spark之scala进行实时计算;

5.将计算指标使用sqoop工具导入mysql;

6.使用Flask+echarts进行可视化大屏实现、数据查询表格实现、含预测算法;

核心算法代码分享如下:

Scala 复制代码
package com.car.process

import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}

object Table01 {

  def main(args: Array[String]): Unit = {


    // 创建spark入口   读取hive的元数据  查询hive中ods层的表
    val hiveSession: SparkSession = SparkSession.builder()
      .appName("table01")
      .master("local")
      .config("spark.hadoop.hive.metastore.uris", "thrift://bigdata:9083")
      .enableHiveSupport()
      .getOrCreate();


    /**
     * insert overwrite table tables01
     * select province,count(1) num
     * from  ods_comments
     * group by province
     */

    // 网友分布中国地图
    val dataFrame: DataFrame = hiveSession.sql(
      """
        |select from_province,count(1) num
        |from  hive_chinawutong.ods_chinawutong
        |group by from_province
        |""".stripMargin)


    dataFrame.show()


    // 写入到mysql中
    dataFrame
      .write
      .format("jdbc")
      .option("url", "jdbc:mysql://bigdata:3306/hive_chinawutong?useSSL=false")
      .option("user", "root")
      .option("password", "123456")
      .option("driver", "com.mysql.jdbc.Driver")
      .option("dbtable", "table01")
      .mode(SaveMode.Overwrite)
      .save()

  }

}
相关推荐
萌萌可爱郭德纲22 分钟前
基于AI智能算法的装备结构可靠性分析与优化设计技术专题
人工智能·机器学习·支持向量机·发动机·疲劳寿命
诺....24 分钟前
机器学习库的决策树绘制
人工智能·决策树·机器学习
nju_spy25 分钟前
NJU-SME 人工智能(三) -- 正则化 + 分类 + SVM
人工智能·机器学习·支持向量机·逻辑回归·对偶问题·正则化·auc-roc
北诺南兮2 小时前
大模型算法面试笔记——多头潜在注意力(MLA)
笔记·深度学习·算法
培培说证2 小时前
2025年高职大数据技术专业需要什么基础?
大数据
北邮-吴怀玉2 小时前
1.4.2 大数据方法论与实践指南-质量治理(准确性&及时性)
大数据·数据治理
Fuxiao___2 小时前
OpenVLA-OFT+ 在真实世界 ALOHA 机器人任务中的应用
人工智能·深度学习·计算机视觉
搞科研的小刘选手2 小时前
【多所高校主办】第七届机器人、智能控制与人工智能国际学术会议(RICAI 2025)
人工智能·机器学习·ai·机器人·无人机·传感器·智能控制
Dev7z3 小时前
基于Swin Transformer的肝脏肿瘤MRI图像分类与诊断系统
人工智能·深度学习·transformer
西***63474 小时前
怕故障?怕扩展难?分布式可视化控制:给足场景安全感
分布式·数据可视化