一、任务目标
1、任务
(1) 数据导入及预处理。 (2) 特征构建。 (3) 特征拼接。
二、数据形式
1、图像呈现
2、特征描述
三、分析步骤
1、导入数据
'Date_received'和'Date'设为 Date 格式(YMD),其他格式 设为默认格式
导入后的数据
语法扩展
相关链接
2、数据预处理
3.2.1空值处理
① 将'Date_received'和'Date'中的'0000-00-00'修改为 null
修改为null(虽然该数据没有全0)
② 将'Distance'中的'null'字符串修改为该列的平均值
查询
计算
修改
此处有2种做法
3.2.2数据类型转换
语法扩展
日常收集常用SQL查询语句大全_MsSql_脚本之家 (jb51.net)
SQL ALTER TABLE 语句 | 菜鸟教程 (runoob.com)
1、查询表结构
2、表字段类型修改
3.2.3构建标签列
① 新建一列'label'列,数据格式为 varchar(3),默认值设为'-1'。
原数据表中有label了,这里建个label_1意思意思,再删除
1、删除表字段列
2、新增表字段列
② 将用户分成三类:-1,0,1(-1 代表普通用户,1 代表正样本,0 代表负样本)
正样本 1:领了优惠券并在 15 天内使用的样本。
负样本 0: 领了优惠券但没有使用的样本和领了但在 15 天后才使用的样本。
普通用户-1: 未领优惠券但进行消费的样本。
分析思路:1、需要消费日期、领取日期、优惠券id进行分类
2、要对日期进行减法判断
3、计算时间差
4、对用户分类
整理一下
语法扩展
SQL ALTER TABLE 语句 | 菜鸟教程 (runoob.com)
3、构建特征
思路:
1、所需数据字符串长度不同,需要用字符串截取所需数据
2、用if判断是三组数据还是两组,计算并填入折扣率
语法扩展(字符串截取)
SQL中字符串截取函数(SUBSTRING)_sql substring-CSDN博客
相关资料连接
玩转SQL语句之group by 多字段分组查询与having子句,一篇解决你的疑惑!_group by 多个字段-CSDN博客