Kaggle平台的使用
在Kaggle上注册账号并使用手机号进行验证获得免费的GPU的使用
基础概念
kaggle主要围绕着Competitions(竞赛)来设计一整套系统,包括Datasets, Models, Notebooks作为最主要的组成部分。
- Competitions:
- featured: 工业界的具体案例,有奖金💰,牌子🏅,积分🎫。
- Research: 学术研究性质,一般没有奖金积分。
- Getting Started: 入门,滚动排行版。
- Playground: 比入门稍难的。
比赛形式: 普通赛:提交submissions.csv文件 代码赛:提交notebook,实际在同样的环境中跑,通常离线(断网),相同硬件配额。
- Datasets
- 格式:csv, json, 图片,sql, archived等。
- 自建数据集:
- 数据集的合法性及应用许可
- 封面、标题、描述、标签tag
- Models
- kaggle平台的模型
- 自己上传
- 第三方的api
- Notebooks
-
文件系统:
- 工作路径:/kaggle/working
- 文件路径:/kaggle/input (read only)
-
Add input:
- Your work
- Datasets
- Models
- Competition
- Notebook
-
Console
Kaggle入门比赛案例房价预测
我们参考李沐老师这里的房价预测案例,不使用离线的方式而是我们使用本地读取数据集使用GPU训练并提交文件的方式来进行实现
这个数据集是 房屋价格预测 的数据集,来自 Kaggle 的 House Prices: Advanced Regression Techniques 竞赛。数据集中包含了大量有关房屋特征的信息,目的是用这些特征来预测房屋的销售价格 (SalePrice)。
数据集含义
MSSubClass: 标识销售中涉及的住宅类型。
20: 一层楼,1946年及以后建造,所有风格
30: 一层楼,1945年及以前建造
40: 一层楼,带有完成阁楼,所有年龄段
45: 一层半 - 未完成,所有年龄段
50: 一层半 - 完成,所有年龄段
60: 两层楼,1946年及以后建造
70: 两层楼,1945年及以前建造
75: 两层半楼,所有年龄段
80: 分层或多层住宅
85: 分层门厅住宅
90: 双拼住宅,所有风格和年龄段
120: 一层PUD(规划单元开发),1946年及以后建造
150: 一层半PUD,所有年龄段
160: 两层PUD,1946年及以后建造
180: PUD - 多层(包括分层/门厅住宅)
190: 二家庭改造住宅,所有风格和年龄段
MSZoning: 标识销售的普遍区域划分类型。
A: 农业
C: 商业
FV: 漂浮村庄住宅
I: 工业
RH: 高密度住宅
RL: 低密度住宅
RP: 低密度住宅公园
RM: 中密度住宅
LotFrontage: 与街道连接的地段长度(以英尺为单位)。
LotArea: 地块面积(以平方英尺为单位)。
Street: 房产的道路类型。
Grvl: 沙砾路
Pave: 铺设路
Alley: 房产的巷道类型。
Grvl: 沙砾路
Pave: 铺设路
NA: 无巷道通道
LotShape: 房产的形状。
Reg: 正常
IR1: 稍微不规则
IR2: 中等不规则
IR3: 不规则
LandContour: 地块的平坦度。
Lvl: 接近平坦/水平
Bnk: 坡度(街道到建筑的高度差异显著)
HLS: 山坡(建筑的两侧存在显著坡度)
Low: 低洼
Utilities: 可用的公用设施类型。
AllPub: 所有公用设施(电力、天然气、水、排水)
NoSewr: 仅提供电力、天然气和水(使用化粪池)
NoSeWa: 仅提供电力和天然气
ELO: 仅提供电力
LotConfig: 地块配置。
Inside: 内部地块
Corner: 角落地块
CulDSac: 死胡同
FR2: 地块两侧有街道通道
FR3: 地块三侧有街道通道
LandSlope: 地块的坡度。
Gtl: 温和坡度
Mod: 中等坡度
Sev: 严重坡度
Neighborhood: 在Ames市区内的位置。
示例:Bloomington Heights(布鲁明顿高地)、Bluestem(蓝草地)、Brookside(布鲁克赛德)、College Creek(大学溪)、North Ames(北Ames)、Old Town(老城区)等。
Condition1: 距离各种条件的距离(主要条件)。
Artery: 临近主干道
Feedr: 临近喂给路
Norm: 正常
RRNn: 距北南铁路200英尺以内
RRAn: 临近北南铁路
PosN: 临近积极的外部特征(如公园、绿带等)
PosA: 临近积极的外部特征
RRNe: 距东西铁路200英尺以内
RRAe: 临近东西铁路
Condition2: 距离各种条件的距离(次要条件,如果有多个条件)。
BldgType: 住宅类型。
1Fam: 独立式单家庭住宅
2FmCon: 二家庭改造住宅(原为单家庭住宅)
Duplx: 双拼住宅
TwnhsE: 端户型联排住宅
TwnhsI: 内部户型联排住宅
HouseStyle: 住宅风格。
1Story: 一层住宅
1.5Fin: 一层半住宅(二楼完成)
1.5Unf: 一层半住宅(二楼未完成)
2Story: 两层住宅
2.5Fin: 两层半住宅(完成二楼)
2.5Unf: 两层半住宅(二楼未完成)
SFoyer: 分层门厅住宅
SLvl: 分层住宅
OverallQual: 评估房屋整体材料和装修质量。
10: 非常优秀
9: 优秀
8: 非常好
7: 好
6: 优于平均
5: 一般
4: 低于平均
3: 一般
2: 较差
1: 非常差
OverallCond: 评估房屋的整体状况。
10: 非常优秀
9: 优秀
8: 非常好
7: 好
6: 优于平均
5: 一般
4: 低于平均
3: 一般
2: 较差
1: 非常差
YearBuilt: 原始建造日期。
YearRemodAdd: 装修或扩建日期(如果没有装修或扩建,则与建造日期相同)。
RoofStyle: 屋顶类型。
Flat: 平顶
Gable: 山形屋顶
Gambrel: 甘布雷尔(谷仓屋顶)
Hip: 四坡屋顶
Mansard: 曼萨尔屋顶
Shed: 单坡屋顶
RoofMatl: 屋顶材料。
ClyTile: 陶土或瓦片
CompShg: 标准复合瓦片
Membran: 薄膜材料
Metal: 金属
Roll: 卷材
Tar&Grv: 沥青和碎石
WdShake: 木质瓦片
WdShngl: 木瓦
Exterior1st: 房屋外部覆盖材料。
示例:石棉瓦、沥青瓦、砖面、混凝土板、金属外立面等。
Exterior2nd: 房屋外部第二层覆盖材料(如果有多个材料)。
MasVnrType: 砌体饰面类型。
BrkCmn: 普通砖
BrkFace: 砖面
CBlock: 水泥块
None: 无饰面
Stone: 石材
MasVnrArea: 砌体饰面面积(平方英尺)。
ExterQual: 外部材料质量。
Ex: 优秀
Gd: 良好
TA: 一般/典型
Fa: 较差
Po: 极差
ExterCond: 外部材料的现有状况。
Ex: 优秀
Gd: 良好
TA: 一般/典型
Fa: 较差
Po: 极差
