数据集笔记:Telecom Shanghai Dataset

0 数据地址

📱Telecom Shanghai Dataset (kaggle.com)

1 数据描述

  • 该数据集由上海电信提供,包含超过720万条记录,记录了9481部手机通过3233个基站访问互联网的情况,时间跨度为六个月。
  • 例如,下图显示了基站的分布情况。每个节点代表中国上海的一个基站。
  • 这个数据集可以帮助研究人员评估他们在移动边缘计算主题上的解决方案,如边缘服务器部署、服务迁移、服务推荐等。

2 数据介绍

  • 电信数据集展示了6个参数,例如月份、数据、开始时间、结束时间、基站位置、手机ID。
  • 通过数据集可以找到用户的轨迹。

每15天一个表

3 python读取+可视化

3.1 读取数据

python 复制代码
import pandas as pd

data=pd.read_excel('Downloads/Telecom Shanghai Dataset/data_10.110.15.xlsx',names=['Data','start time','end time','cell station lon','cell station lat','user id'])

3.2 剔除经纬度为NaN的record

python 复制代码
data1=data.dropna()
data1

3.3 选择某一天的数据

python 复制代码
import datetime
data2=data1[(data1['start time']>=datetime.datetime(2014,10,15)) & (data1['start time']<datetime.datetime(2014,10,16))]
data2

3.4 根据user id和时间排序

python 复制代码
data2=data2.sort_values(by=['user id','start time'])
data2

3.5 停留的记录只保留第一条

3.5.1 首先确定哪些时刻在移动

记录当前位置和前一时刻的位置

python 复制代码
data2['location']=data2['cell station lon'].astype(str)+'_'+data2['cell station lat'].astype(str)
data2
python 复制代码
data2['prev_location']=data2['location'].shift(1)
data2
python 复制代码
data2['location_changed']=(data2['location']!=data2['prev_location'])
data2

3.5.2 保留当前时刻在移动的记录

python 复制代码
data3=data2[data2['location_changed']==True]
data3
python 复制代码
data3=data3[[ 'start time', 'end time', 'cell station lon',
       'cell station lat', 'user id']]
data3

3.6 保留轨迹长度大于10的轨迹

计算每一个用户id出现的次数

python 复制代码
iid=data3.groupby('user id').size().reset_index(name='count')
iid
python 复制代码
iid['count'].describe()
'''
count    2956.000000
mean        4.675237
std         4.769128
min         1.000000
25%         2.000000
50%         3.000000
75%         6.000000
max        69.000000
Name: count, dtype: float64
'''
python 复制代码
iid=iid[iid['count']>10]
iid
python 复制代码
data4=data3[data3['user id'].isin(iid['user id'])]
data4

3.7 绘制一条轨迹(使用folium)

python 复制代码
import numpy as np
tmp=data4[data4['user id']=='00a05a4f2b937fd38888c03213c4deb2'].reset_index()
tra_lst=[]
for j in range(tmp.shape[0]):
        tra_lst.append([tmp.at[j,'cell station lon'],tmp.at[j,'cell station lat']])
tra_lst=np.array(tra_lst)
m=folium.Map(location=tra_lst.mean(axis=0),zoom_start=13)
for i in tra_lst:
    folium.Marker(location=i).add_to(m)
folium.PolyLine(locations=tra_lst).add_to(m)
    
m
相关推荐
chenzhou__2 小时前
MYSQL学习笔记(个人)(第十五天)
linux·数据库·笔记·学习·mysql
rechol3 小时前
C++ 继承笔记
java·c++·笔记
JJJJ_iii5 小时前
【机器学习01】监督学习、无监督学习、线性回归、代价函数
人工智能·笔记·python·学习·机器学习·jupyter·线性回归
Larry_Yanan11 小时前
QML学习笔记(四十二)QML的MessageDialog
c++·笔记·qt·学习·ui
能不能别报错11 小时前
K8s学习笔记(十九) K8s资源限制
笔记·学习·kubernetes
sulikey12 小时前
【Linux权限机制深入理解】为何没有目录写权限仍能修改文件权限?
linux·运维·笔记·ubuntu·centos
十安_数学好题速析12 小时前
倍数关系:最多能选出多少个数
笔记·学习·高考
Hello_Embed13 小时前
STM32 环境监测项目笔记(一):DHT11 温湿度传感器原理与驱动实现
c语言·笔记·stm32·单片机·嵌入式软件
程序员大雄学编程14 小时前
「深度学习笔记4」深度学习优化算法完全指南:从梯度下降到Adam的实战详解
笔记·深度学习·算法·机器学习
新子y14 小时前
【小白笔记】PyTorch 和 Python 基础的这些问题
pytorch·笔记·python