2025年泰迪杯数据挖掘竞赛B题论文首发+问题一二三四代码分享

基于穿戴装备的身体活动监测

摘要

随着科技的进步,加速度计,能够实时、准确地捕捉人体的动态变化,成为医学应用中的一个重要工具。本文将基于题目收集数据进行相关研究。

针对题目给出的数据集,我们首先进行数据清洗工作。首先利用df[df.isna().any(axis=1)]筛选含缺失值的行,并对所在行进行删除处理。对于处理后的结果,我们利用通过文献查询的理论存在极值,设定阈值进行异常值判定并删除其所在行。

针对问题一,单一利用时间差计算持续时间消耗资源太大,这里通过分析数据可以看出数据的采样率为100 Hz。因此,我们对最后MET值中不同类型进行计频处理。根据频数推算持续各状态的持续时间。

针对问题二,将处理后的数据集,进行合并为一个完整的数据集作为训练数据集,性别 (Sex)和年龄(Age)为类别变量,加速度计数据作为输入数据,MET值作为输出数据,引入随机森林回归器、随机森林、支持向量机、多层感知机、GBDT进行训练模型,并利用RMSE对模型精度进行评估。则取精度最高的模型进行预测。基于得到的结果利用问题二中频数方式计算持续时长。

对于问题三,基于可穿戴设备采集的加速度计数据,旨在对个体睡眠状态进行阶段性识别。将所有数据进行汇总,并从中筛选出MET<1.0的数值,保证选取的数据集中包含与睡眠相关的测量。聚类模型对个体睡眠阶段进行智能识别,利用肘部法则自动寻优。构建智能识别模型,并进行应用。

针对问题四,基于加速度计数据的久坐行为健康预警方法。以附件2中志愿者加速度计数据作为输入,其中每条记录包含时间戳和经预测得到的MET值(MET_Pred)。通过计算相邻记录预测值的变化量来划分"段"(segment)。设置为排除短时的静止状态,仅考虑持续超过30分钟的行为段;久坐状态对应的MET值区间设定为[1.0,1.6]。并提取时域特征对于每个志愿者数据集,依照上述分段和久坐判定规则,识别出所有符合条件的连续久坐段。

关键词:近地小行星轨道预测、开普勒定律、最小二乘法、

5.1 数据预处理

针对题目给出的数据集,我们首先进行数据清洗工作。首先利用df[df.isna().any(axis=1)]筛选含缺失值的行,并对所在行进行删除处理。对于处理后的结果,我们利用通过文献查询的理论存在极值,设定阈值进行异常值判定并删除其所在行。

5.1.1 描述性分析

首先,我们利用给出的数据,进行给出数据特征的初步选择。

从图表来看,X、Y和Z轴的波动程度有所不同,这可能与志愿者在该时段进行的不同活动类型相关。例如,较大的波动通常意味着较为剧烈的运动,而较小的波动则可能表明志愿者处于较为静止的状态。

5.1.2 缺失值处理

在本研究中,我们利用可穿戴设备采集的加速度计数据,旨在实现对个体运动状态的实时监测和后续健康行为分析。原始数据存储于CSV格式文件中,其中记录了时间戳和对应的三轴加速度值(X,Y,Z轴),这些数据反映了个体在空间中各个方向上的加速度信息。为保证数据处理的准确性和后续模型的鲁棒性,首先对数据进行预处理。预处理主要包括:

1.缺失值检查与清洗
由于实际采集过程中可能存在数据丢失或异常情况,通过统计每个变量(time, )的缺失值个数,确定数据中存在缺失的记录。对于出现缺失值的行,采用剔除策略确保分析数据均为有效观测值。数学上,经过缺失值处理的数据集记为

2.数据采样
考虑到连续采集的数据样本量巨大,为了降低可视化绘图与后续数据分析的计算成本,在保证数据整体趋势不丢失的前提下,采取均匀采样策略。具体方法为每隔固定步长(例如每100个样本取一个数据点),构造采样数据集:

5.1.3 异常值处理

阈值处理:查阅文献,找到理论存在X Y Z方向加速度最大值,将该值设定为阈值超过该数据的认定为异常数据,方便起见直接删除处理。

|---------------|---------------------------|
| 传感器量程 | 最大可记录加速度(每轴) |
| ±2g | 约 ±2 × 9.8 = ±19.6 m/s² |
| ±4g | 约 ±4 × 9.8 = ±39.2 m/s² |
| ±8g | 约 ±8 × 9.8 = ±78.4 m/s² |
| ±16g | 约 ±16 × 9.8 = ±156.8 m/s² |
[ ]

理论上,根据牛顿第二定律以及地球重力加速度的参考值,常见的加速度值应落于合理范围内。在本研究中,将
作为加速度的理论上界(约为 2 倍标准重力加速度,即 ),以此为阈值检测异常数据。对于任一数据点,当任一方向上的加速度满足:

5.2 统计分析模型

对于问题一,单一利用时间差计算持续时间消耗资源太大,这里通过分析数据可以看出数据的采样率为100 Hz。因此,我们对最后MET值中不同类型进行计频处理。根据频数推算持续各状态的持续时间。

5.2.1 活动时长计量

针对每个志愿者(标识为P001至P100)的数据文件,本研究首先利用数据读取工具导入CSV数据,其中至少包含一个描述活动类型的"annotation"列。借助正则表达式提取每条记录中的MET数值,确保后续分类操作的准确性。

在分析过程中,将每个活动注解的出现频次视为该活动持续的时间片段。假定数据的采样率为 100 Hz ,即每 100 个连续记录视为 1 秒内的采样(或换算后为固定的时间长度),从而每个活动类型的频次累计可用于估算总持续时间。用数学表达式表示,若设对某一特定活动类型
的出现次数为
,则活动持续时间(单位为秒)为:

|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------|
| 类型名称 | 出现次数 |
| 7030 sleeping;MET 0.95 | 3810002 次 |
| home activity;eating;13030 eating sitting alone or with someone;MET 1.5 | 74004 次 |
| home activity;household chores;preparing meals/cooking/washing dishes;5035 kitchen activity general cooking/washing/dishes/cleaning up;MET 3.3 | 954511 次 |
| home activity;miscellaneous;sitting;11580 office work such as writing and typing (with or without eating at the same time);MET 1.5 | 144105 次 |
| home activity;miscellaneous;sitting;9055 sitting/lying talking in person/using a mobile phone/smartphone/tablet or talking on the phone/computer (skype chatting);MET 1.5 | 308709 次 |
| home activity;miscellaneous;sitting;9060 sitting/lying reading or without observable/identifiable activities;MET 1.3 | 338112 次 |
| home activity;miscellaneous;standing;9050 standing talking in person on the phone/computer (skype chatting) or using a mobileo phone/smartphone/tablet;MET 1.8 | 7501 次 |
| home activity;miscellaneous;standing;9050 standing talking in person/on the phone/computer (skype chatting) or using a mobile phone/smartphone/tablet;MET 1.8 | 49103 次 |

|------|-----------|-----------|-------------------|-----------------------|------------------|--------------------|
| ID | TotalTime | SleepTime | HighIntensityTime | ModerateIntensityTime | LowIntensityTime | StaticActivityTime |
| P001 | 24.7159 | 10.5833 | 0 | 3.7303 | 3.0009 | 7.4013 |
| P002 | 16.1406 | 6.25 | 0.3567 | 1.1702 | 1.8108 | 6.5529 |
| P003 | 20.5242 | 6.6667 | 0 | 6.7723 | 2.7376 | 4.3476 |
| P004 | 18.9362 | 6.5 | 0 | 2.5809 | 3.1359 | 6.7194 |
| P005 | 17.0661 | 4.3333 | 0 | 1.8884 | 3.9005 | 6.9439 |

可以直观地看出各个受试者或各个时间段之间的MET差异。下方的柱状图则展示了不同强度运动时长的对比情况,橙色、红色、蓝色等不同颜色柱状分别代表高强度、中强度、低强度、静态或睡眠等类别,由此可以观察每个受试者或不同时间段内各活动类型所占用的时间比例,

5.3 MET 值估计模型

将处理后的数据集,进行合并为一个完整的数据集作为训练数据集,性别 (Sex)和年龄(Age)为类别变量,加速度计数据作为输入数据,MET值作为输出数据,引入随机森林回归器、随机森林、支持向量机、多层感知机、GBDT进行训练模型,并利用RMSE对模型精度进行评估。则取精度最高的模型进行预测。基于得到的结果利用问题二中频数方式计算持续时长。

相关推荐
Better Rose34 分钟前
【2025年泰迪杯数据挖掘挑战赛】B题 完整论文 模型建立与求解
人工智能·数据挖掘
CodeJourney.2 小时前
从PPT到DeepSeek开启信息可视化的全新之旅
数据库·人工智能·算法·excel·流程图
琢磨先生David4 小时前
Java 在人工智能领域的突围:从企业级架构到边缘计算的技术革新
java·人工智能·架构
kuaile09064 小时前
DeepSeek 与开源:肥沃土壤孕育 AI 硕果
人工智能·ai·gitee·开源·deepseek
飞火流星020275 小时前
BERT、T5、ViT 和 GPT-3 架构概述及代表性应用
人工智能·gpt-3·bert·t5·vit·人工智能模型架构
程序小K6 小时前
自然语言处理Hugging Face Transformers
人工智能·自然语言处理
恒拓高科WorkPlus6 小时前
BeeWorks:打造安全可控的企业内网即时通讯平台
大数据·人工智能·安全
newxtc6 小时前
【指纹浏览器系列-chromium编译】
人工智能·安全
轻闲一号机7 小时前
【机器学习】机器学习笔记
人工智能·笔记·机器学习
光锥智能7 小时前
傅利叶发布首款开源人形机器人N1:开发者可实现完整复刻
人工智能