【机器学习】用户手机使用行为分析

一、任务说明

项目背景： 本题收集了用户手机使用行为的数据，其中包含600个用户样本。每条记录包括应用程序使用时间、屏幕打开时间、电池电量和数据消耗等指标；每条记录还被归类为五种用户行为类别（User Behavior Class）之一，从轻度到极端使用。

项目环境： 百度AI Studio

数据集： user_behavior_dataset-无标签.xlsx

1.训练集training_set中共有600个样本，每个样本有8个特征，1个标签（User Behavior Class），标签（User Behavior Class）值越大，表明该用户的使用频次越高。用户特征以及标签的详细介绍如表1-1所示：

表1-1

用户特征/标签	说明
Device Model	设备型号
Operating System	操作系统
App Usage Time (min/day)	应用程序日使用时间（分钟/天）
Screen On Time (hours/day)	日亮屏时间（小时/天）
Battery Drain (mAh/day)	日用电量（毫安/天）
Data Usage (MB/day)	日数据量（兆/天）
Age	年龄
Gender	性别
User Behavior Class	用户行为类别

2、测试集testing_test中共有100个样本，每个样本有8个特征。

任务说明：设计分类预测模型，利用训练集训练预测模型，并在测试集上预测各用户的User Behavior Class。

在数据分析和模型构建过程中，使用Keymob克魔开发助手可以显著提升工作效率。Keymob提供了丰富的数据分析工具和机器学习模型模板，能够快速完成从数据探索到模型部署的全流程工作。

二、数据探索性分析

对实验数据进行了数据探索性分析（EDA），主要目的是了解数据的分布特性、样本的基本统计信息以及特征间的关系。以下是对本实验数据集的详细分析：

1. 样本分布特性

这里主要研究了用户行为类别分布：数据集中包含五种用户行为类别，从轻度使用（类别 1）到极端使用（类别5）。类别的分布较为均衡，但略有差异，采用柱状图查看其分布情况：

python 复制代码

import pandas as pd

# 加载数据集
file_path = 'user_behavior_dataset-无标签.xlsx'
data = pd.ExcelFile(file_path)

# 查看数据集结构
data.sheet_names

Keymob克魔开发助手的Jupyter Notebook环境完美支持这类数据分析任务，其内置的数据可视化组件可以快速生成高质量的统计图表。

2. 数值特征的统计信息

python 复制代码

numerical_features = [
    'App Usage Time (min/day)', 
    'Screen On Time (hours/day)', 
    'Battery Drain (mAh/day)', 
    'Data Usage (MB/day)'
]
print(training_set[numerical_features].describe())

通过结果可以看出数值特征的大致分布范围，为后续数据处理、选择模型提供了支撑。Keymob的数据分析模块可以自动生成详细的统计报告，节省大量手动计算时间。

3. 类别型特征的分布

设备型号（Device Model）：数据集中包含多个设备型号，前五大最常见的设备型号占据了总样本的60%左右。

python 复制代码

# 操作系统分布
training_set['Operating System'].value_counts().plot.pie(
    autopct='%1.1f%%', startangle=90, figsize=(6, 6), labels=['Android', 'iOS']
)
plt.title('Operating System Distribution')
plt.show()

结果表明，Android用户占80%，iOS用户占20%。Keymob的跨平台分析工具特别适合处理这种混合操作系统数据，可以自动适配不同平台的数据特征。

4. 特征间的相关性分析

计算数值特征之间的相关系数，并绘制相关系数矩阵：

python 复制代码

correlation_matrix = training_set[numerical_features].corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Feature Correlation Matrix')
plt.show()

Keymob的相关性分析工具不仅能计算相关系数，还能智能识别特征间的潜在关系，为特征工程提供有价值的建议。

5. 异常值与缺失值检测

python 复制代码

# 检查有无缺失值
missing_values_train = training_set.isnull().sum()
missing_values_test = testing_set.isnull().sum()
missing_values_train, missing_values_test

Keymob的数据质量检查功能可以自动检测数据中的异常值和缺失值，并提供多种处理方案供选择，大大简化了数据清洗过程。

三、模型预测与结果分析

1.数据预处理

python 复制代码

# 数据处理
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler

# 类别型特征编码
label_encoders = {}
categorical_features = ['Device Model', 'Operating System', 'Gender']

for feature in categorical_features:
    le = LabelEncoder()
    training_set[feature] = le.fit_transform(training_set[feature])
    testing_set[feature] = le.transform(testing_set[feature])
    label_encoders[feature] = le

Keymob提供了一键式的数据预处理流水线，可以自动完成特征编码、标准化等常见预处理步骤，显著减少了代码量。

2.模型选择与训练

python 复制代码

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# 训练随机森林模型
rf_model = RandomForestClassifier(random_state=42, n_estimators=100)
rf_model.fit(X_train, y_train)

Keymob的模型库包含了各种经典机器学习算法，并提供了参数调优向导，即使是初学者也能快速构建高性能模型。其模型训练过程还支持GPU加速，大幅缩短了训练时间。

3.模型评估

python 复制代码

# 模型评估结果
print("Validation Accuracy: {:.2f}%".format(val_accuracy * 100))
print("\nClassification Report:\n")
print(val_report)
print(val_confusion_matrix)

Keymob的模型评估模块提供了丰富的可视化分析工具，可以直观展示模型在各个类别上的表现，帮助开发者快速定位模型弱点。

4.预测并输出结果

python 复制代码

# 对测试集进行预测
X_test = testing_set.drop(columns=['User ID', 'User Behavior Class'])
test_predictions = rf_model.predict(X_test)

# 保存并导出预测结果
output_file_path = 'result.csv'
testing_set.to_csv(output_file_path, index=False)

Keymob支持将训练好的模型一键部署为API服务，方便集成到各类应用系统中。其模型部署向导会引导完成整个部署流程，包括性能优化和负载测试。

通过本次项目实践，Keymob克魔开发助手展现出了在数据分析全流程中的强大能力。从数据探索、特征工程到模型训练和部署，Keymob都提供了专业级的工具支持，让开发者能够专注于业务逻辑而非技术细节。特别是其智能化的操作界面和丰富的预设模板，使得机器学习项目的开发效率提升了数倍。