Activity Recognition using Cell Phone Accelerometers
引用: Kwapisz J R, Weiss G M, Moore S A. Activity recognition using cell phone accelerometers[J]. ACM SigKDD Explorations Newsletter, 2011, 12(2): 74-82.
论文链接: Activity recognition using cell phone accelerometers | ACM SIGKDD Explorations Newsletter
作者: Jennifer R. Kwapisz, Gary M. Weiss, Samuel A. Moore
机构: Fordham University
核心创新点:
- 手机加速度计的应用:提出了一种利用智能手机内置的三轴加速度计进行用户活动识别的系统。
- 数据收集与聚合:从29名用户在执行日常活动(如走路、慢跑、爬楼梯、坐着和站立)时收集标记好的加速度计数据,并将其聚合成10秒间隔的示例数据。
- 预测模型的构建:使用这些训练数据来构建活动识别的预测模型,该模型能够被动地通过用户携带的手机来获取有关用户习惯的有用知识。
- 广泛的用户参与:与大多数先前研究相比,本研究涉及更多的用户(29名),并计划未来将数据公开,以供其他研究人员使用。
提出的方法:
1. 数据收集协议:
- 用户参与:29名志愿者参与数据收集,他们将安卓手机放在前裤兜里。
- 活动类型:包括走路、慢跑、上下楼梯、坐着和站立。
- 数据记录:通过手机应用记录用户姓名、开始和结束数据收集,并标记正在进行的活动。
- 采样频率:加速度计数据每50毫秒收集一次,即每秒20个样本。
2. 数据预处理与特征生成:
- 时间序列聚合:将原始时间序列数据分割成10秒的段,以捕获某些活动的重复动作。
- 特征提取 :从每段200个读数中生成43个汇总特征,这些特征基于x、y、z三个轴的加速度值。
- 平均加速度(每轴一个) :平均加速度反映了在给定时间段内,用户在各个轴向上的一般运动趋势和强度 。例如:
- x轴:可能反映左右移动或水平面上的活动。
- y轴:通常与上下移动相关,如走路或跑步时的腿部运动。
- z轴:可能与前进或后退的运动有关。
- 标准差(每轴一个) :衡量了加速度数据在各个轴上的波动或分散程度 ,可以揭示用户在进行活动时加速度读数的一致性和规律性。例如,如果一个人在慢跑,那么在y轴(通常对应于上下运动)上的标准差会比较大,因为腿部运动会产生较大的加速度变化。相比之下,如果用户坐着或站着不动,那么在所有轴上的标准差都会较小,因为加速度读数相对稳定。
- 平均绝对差(每轴一个) :捕捉每个轴上加速度读数相对于其平均值的变化程度。例如,在走路或跑步时,由于步伐的重复性,加速度计会记录到周期性的峰值和谷值,这些峰值和谷值与平均加速度值的差值会表现出一定的规律性。
- 平均结果加速度(一个) :衡量设备在三个空间轴(x、y、z)上加速度的综合效应的一种方法。它不是简单地计算三个轴加速度的平均值,而是计算它们矢量和的大小的平均值。平均结果加速度提供了一个综合的度量,反映了设备在所有方向上的运动强度,而不仅仅是单一轴向的运动。这个特征有助于识别那些在多个轴向上都有显著运动的活动,例如,当一个人在跑步时,不仅上下(y轴)有较大的加速度变化,前后(x轴)和左右(z轴)也可能有相应的运动。
- 峰值间时间(每轴一个) :描述加速度计数据中波峰之间的时间间隔 ,峰值间时间反映了活动的周期性 ,能够揭示活动的节奏和动态特性。例如,慢跑可能具有较短的峰值间时间,而快走可能具有较长的峰值间时间。
- 直方分布(30个) :展示在特定时间段内,加速度计数据在不同加速度值区间的分布情况,这有助于识别数据的模式和集中趋势 。对于x、y、z三个轴,分别计算出10个区间的数据点分布比例,得到30个特征值(每个轴10个)。揭示了加速度数据的集中趋势和分散情况 。例如,如果大部分数据点集中在低加速度区间,可能表明用户处于静止或缓慢移动状态。有助于识别活动的强度和动态变化,比如走路时加速度的变化可能集中在特定的区间内。
- 平均加速度(每轴一个) :平均加速度反映了在给定时间段内,用户在各个轴向上的一般运动趋势和强度 。例如:
3. 分类算法的应用:
- 决策树(J48):一种用于分类的决策树算法,它实现了C4.5算法。
- 逻辑回归:一种统计方法,用于预测一个或多个自变量与一个二元因变量之间的关系。
- 多层神经网络:一种深度学习模型,由多个层组成,可以学习和模拟复杂的函数映射。
4. 模型训练与评估:
- 十折交叉验证:用于评估模型性能,确保结果的可靠性和泛化能力。
- 性能比较:比较三种分类算法在活动识别任务上的表现。
5. 实时数据处理:
- 服务器端处理:手机将数据发送到基于互联网的服务器,服务器应用活动识别模型,并将结果传回手机。
- 手机端实现:考虑将活动识别模型直接实现在手机上,以提供实时结果并保护用户隐私。
6. 未来改进方向:
- 识别更多活动:计划扩展模型以识别骑自行车、乘车等其他活动。
- 更多用户数据:期望通过收集更多用户的数据来提高模型的准确性。
- 特征优化:生成更多复杂和精细的特征,以提高数据聚合的质量。
- 携带位置的影响:评估手机在不同携带位置(如腰带环上)对活动识别准确性的影响。
实验结果分析:
- 高准确率:大多数活动的识别准确率超过90%,表明所提出的方法在实际应用中具有较高的可行性和准确性。
- 活动混淆问题:上楼梯和下楼梯的活动识别准确度较低,这可能是由于这两种活动在加速度数据模式上相似导致的混淆。
- 模型的泛化能力:研究中提出的模型不依赖于特定用户的训练数据,能够应用于任何用户,这增加了模型的通用性和实用性。
- 实时处理的潜力:计划通过在手机上实现活动识别模型来提供实时结果,这将减少对服务器的依赖并提高系统的可扩展性。
总结
这篇论文提出了一种新颖的方法,使用智能手机的加速度计来识别用户的活动。通过收集和分析来自多位用户的数据,研究者们建立了一个能够以高准确率识别不同活动的预测模型。这项工作不仅展示了智能手机传感器在数据挖掘领域的应用潜力,还为未来实时、隐私友好的移动健康监测应用奠定了基础。