近乎实时的物联网数据管道架构

这篇论文的标题是《Near Real-Time IoT Data Pipeline Architectures》,作者是 Markus Multamäki,完成于 2024 年,属于计算机科学与工程硕士学位论文。论文主要研究了物联网(IoT)数据分析的可扩展数据管道架构,特别应用于车辆中铅酸电池状态的估计。以下是论文的详细内容概述:

摘要

  • 研究介绍了一种用于 IoT 数据分析的可扩展数据管道架构,特别用于车辆中铅酸电池状态的估计。
  • 论文提出了一种新方法,利用云计算远程处理数据,使用电池的历史和使用信息来评估其状态。
  • 系统能够持续分析数万个铅酸电池,开发过程包括探索适合实时 IoT 数据的可扩展管道架构和云服务,以及开发分析铅酸电池状态的算法和方法。
  • 研究结果被整合到一个演示应用程序中,并通过文献回顾和模拟真实使用情况的测试进行了验证。

关键词

  • 铅酸电池
  • 电池健康状态
  • 分类
  • 云计算
  • Google Cloud
  • Microsoft Azure

目录

  • 摘要
  • 引言
  • 背景
  • 云基础的 IoT 架构
  • 实施
  • 测试和评估
  • 讨论
  • 总结
  • 参考文献
  • 附录

引言

  • 论文介绍了物联网(IoT)的定义、应用和与机器学习(ML)及人工智能(AI)方法的结合。
  • 讨论了云计算在克服单个 IoT 设备限制方面的作用,以及云平台如何提供灵活、可扩展的平台。

背景

  • 详细介绍了 IoT 的组件和概念,包括设备和传感器、通信、存储、分析和用户界面。
  • 讨论了云计算的定义、服务模型(IaaS、PaaS、SaaS)和云类型(公有云、私有云、混合云)。
  • 探讨了云计算与 IoT 的结合,以及边缘计算和雾计算的概念。
  • 描述了数据管道的概念,包括 ETL 和 ELT 过程,以及数据存储、数据库、数据湖和数据仓库。

云基础的 IoT 架构

  • 分析了 Google Cloud Platform 和 Microsoft Azure 提供的服务,包括连接性、数据传输、数据存储和分析。
  • 对比了 Google Cloud 和 Azure 在 IoT 数据管道架构中的应用。

实施

  • 描述了系统需求、数据收集、探索性数据分析(EDA)、决策制定过程,包括基于规则的决策和基于机器学习的决策。
  • 讨论了管道开发,包括实验和开发的管道。

4. 实施

4.1. 需求

  • 确定了系统的主要需求,包括处理大量数据的能力、成本效益、以及能够及时准确地估计电池状态。
  • 指出了系统需要能够处理每秒约700行日志数据,并在几秒钟内提供分析结果。

4.2. 数据

  • 描述了用于分析的数据来源,包括从物联网设备收集的电池电压、温度和输入/输出控制数据。
  • 讨论了数据的存储格式,包括在 Google Datastore 中以压缩形式存储的数据批次。

4.3. 探索性数据分析 (EDA)

  • 使用统计和可视化方法对数据进行了探索,以更好地理解数据特性。
  • 分析了电压、温度和 I/O 状态数据的分布和模式。

4.4. 决策制定

  • 结合文献综述和 EDA 的发现,开发了基于规则的决策系统,用于估计电池状态。
  • 介绍了用于检测电池状态的不同阶段(放电、充电和空闲)的算法,包括使用时间加权移动平均(TWMA)算法来检测电压变化。

4.4.1. 基于规则的决策制定

  • 定义了一组规则,用于检查每个空闲期间的电池状态,并根据这些规则发出警告或错误。

4.4.2. 基于机器学习的决策制定

  • 探讨了使用机器学习方法来预测电池未来可能出现的问题。
  • 测试了不同的机器学习模型,并评估了它们在预测电池状态方面的准确性。

4.5. 管道开发

  • 描述了数据管道的开发过程,包括使用 Google Cloud Platform (GCP) 和 Microsoft Azure 的服务。
  • 讨论了数据管道的各个组成部分,包括数据摄取、数据传输、数据存储和分析。

4.5.1. 实验

  • 对 GCP 和 Azure 上的不同服务进行了实际测试,以评估它们的性能和成本效益。
  • 测试了数据管道在处理大量数据时的性能,包括使用 Dataflow 和 Dataproc 进行数据转换和分析。

4.5.2. 开发的管道

  • 详细介绍了最终开发的管道架构,包括使用的关键服务,如 Cloud Pub/Sub、Cloud Dataflow、BigQuery 和 Dataproc。
  • 讨论了管道的可扩展性、成本和处理能力,以及如何满足项目需求。

实施部分的核心是开发了一个能够处理和分析大量 IoT 数据的管道,以便实时估计车辆中铅酸电池的状态。这个管道不仅能够处理数据,还能够提供有关电池健康的有用信息,从而支持可持续的电池使用。

测试和评估

  • 评估了基于规则的方法、机器学习方法和数据管道的性能。
  • 讨论了数据管道的负载测试和成本评估。

讨论

  • 评估了管道架构和应用程序的有效性,提出了未来工作的方向。

总结

  • 总结了研究的主要发现,强调了所开发的管道架构和电池状态估计系统在实际应用中的潜力。

参考文献

  • 列出了论文引用的相关研究文献。

附录

  • 提供了测试结果的图表和数据。

整体而言,这篇论文提出了一个针对 IoT 数据的实时数据处理和分析的可扩展管道架构,特别关注于车辆铅酸电池状态的监测和分析。通过云计算平台,该系统能够处理和分析大量数据,以支持可持续的电池使用。论文还探讨了未来研究的方向,包括进一步优化管道架构和提高电池状态估计的准确性。

复制再试一次分享

相关推荐
shinelord明26 分钟前
【大数据开发实践】Kafka REST Proxy~无缝集成 Kafka
大数据·分布式·架构·kafka
创码小奇客1 小时前
前端小白从零到一:架构师视角下的学习路线与实战指南
前端·javascript·架构
自由的疯2 小时前
java spring blob 附件 下载
java·后端·架构
伶俜monster2 小时前
搞定 Monorepo,工程能力升级,升职加薪快人一步
前端·架构
TDengine (老段)3 小时前
TDengine 数学函数 CEIL 用户手册
java·大数据·数据库·物联网·时序数据库·tdengine·涛思数据
MobotStone4 小时前
架构设计的实用技巧
架构
TDengine (老段)4 小时前
TDengine 浮点数新编码 BSS 用户手册
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据
TDengine (老段)4 小时前
TDengine 数学函数 ASIN() 用户手册
大数据·数据库·sql·物联网·时序数据库·tdengine·涛思数据
LinXunFeng4 小时前
Flutter - Melos Pub workspaces 实践
前端·flutter·架构
一水鉴天7 小时前
整体设计 逻辑系统程序 之17 Source 容器(Docker)承载 C/P/D 三式的完整设计与双闭环验证 之1
架构·量子计算·认知科学·公共逻辑