import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sbn
from sklearn.model_selection import train_test_split,GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
# 使用pandas读取csv格式的文件
'''
数据量过多,使用数据过多会计算较慢,所以使用较少数据进行学习
'''
trainData=pd.read_csv("train.csv")
# 使用 query 查询出部分数据 71664
trainData = trainData.query("x>2.0 & x<2.5 & y>2.0 &y<2.5")
# 去掉出现次数较少的place 使用group分组
# 统计出出现的次数
trainDatacount=trainData.groupby("place_id").count()
# 选择出出现次数大于3的t
trainDatacount= trainDatacount[trainDatacount["row_id"]>3]
#将低于3的地方清理掉
trainData = trainData[trainData["place_id"].isin(trainDatacount.index)]
#数据处理是关键
#修改时间 将绝对时间改变为可以使用的时间----进行训练时可以使用到时间
time=pd.to_datetime(trainData["time"],unit="s")
time=pd.DatetimeIndex(time)
trainData["day"]=time.day
trainData["hour"]=time.hour
trainData["weekday"]=time.weekday
# 确定特征值和目标值
x = trainData[["x","y","accuracy","hour","day","weekday"]]
y = trainData["place_id"]
# 划分训练集和测试集 使用 sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(x,y,random_state=20,train_size=0.25)
# 特征处理
#实例化转换器----将数据标准化或者归一化
transfer=StandardScaler()
# 将数据标准化
x_train=transfer.fit_transform(x_train)
x_test=transfer.transform(x_test)
# 进行模型训练
# 实例化一个模型对象
estimator = KNeighborsClassifier()
# 网格搜索,选出结果最好的参数
param_grid={"n_neighbors":[1,3,5,7,9]}
estimator= GridSearchCV(estimator,param_grid=param_grid,cv=10,n_jobs=-1)
# 模型训练
estimator.fit(x_train,y_train)
# 模型评估
print(estimator.best_estimator_)
print(estimator.best_params_)
print(estimator.best_score_)
print(estimator.predict(x_test))
机器学习---facebook的案例学习
我叫小邋遢2023-08-12 10:03
相关推荐
浊酒南街37 分钟前
决策树(理论知识1)B站计算机毕业设计超人1 小时前
计算机毕业设计PySpark+Hadoop中国城市交通分析与预测 Python交通预测 Python交通可视化 客流量预测 交通大数据 机器学习 深度学习学术头条1 小时前
清华、智谱团队:探索 RLHF 的 scaling laws18号房客1 小时前
一个简单的机器学习实战例程,使用Scikit-Learn库来完成一个常见的分类任务——**鸢尾花数据集(Iris Dataset)**的分类feifeikon1 小时前
机器学习DAY3 : 线性回归与最小二乘法与sklearn实现 (线性回归完)游客5201 小时前
opencv中的常用的100个API古希腊掌管学习的神1 小时前
[机器学习]sklearn入门指南(2)凡人的AI工具箱1 小时前
每天40分玩转Django:Django国际化IT猿手2 小时前
最新高性能多目标优化算法:多目标麋鹿优化算法(MOEHO)求解TP1-TP10及工程应用---盘式制动器设计,提供完整MATLAB代码咸鱼桨2 小时前
《庐山派从入门到...》PWM板载蜂鸣器