Kaggle平台的使用

Kaggle平台的使用

在Kaggle上注册账号并使用手机号进行验证获得免费的GPU的使用

基础概念

kaggle主要围绕着Competitions(竞赛)来设计一整套系统,包括Datasets, Models, Notebooks作为最主要的组成部分。

  1. Competitions:
  • featured: 工业界的具体案例,有奖金💰,牌子🏅,积分🎫。
  • Research: 学术研究性质,一般没有奖金积分。
  • Getting Started: 入门,滚动排行版。
  • Playground: 比入门稍难的。

比赛形式: 普通赛:提交submissions.csv文件 代码赛:提交notebook,实际在同样的环境中跑,通常离线(断网),相同硬件配额。

  1. Datasets
  • 格式:csv, json, 图片,sql, archived等。
  • 自建数据集:
  • 数据集的合法性及应用许可
  • 封面、标题、描述、标签tag
  1. Models
  • kaggle平台的模型
  • 自己上传
  • 第三方的api
  1. Notebooks
  • 文件系统:

    • 工作路径:/kaggle/working
    • 文件路径:/kaggle/input (read only)
  • Add input:

    • Your work
    • Datasets
    • Models
    • Competition
    • Notebook
  • Console

Kaggle入门比赛案例房价预测

我们参考李沐老师这里的房价预测案例,不使用离线的方式而是我们使用本地读取数据集使用GPU训练并提交文件的方式来进行实现

这个数据集是 房屋价格预测 的数据集,来自 Kaggle 的 House Prices: Advanced Regression Techniques 竞赛。数据集中包含了大量有关房屋特征的信息,目的是用这些特征来预测房屋的销售价格 (SalePrice)。

数据集含义

MSSubClass: 标识销售中涉及的住宅类型。

复制代码
20: 一层楼,1946年及以后建造,所有风格

30: 一层楼,1945年及以前建造

40: 一层楼,带有完成阁楼,所有年龄段

45: 一层半 - 未完成,所有年龄段

50: 一层半 - 完成,所有年龄段

60: 两层楼,1946年及以后建造

70: 两层楼,1945年及以前建造

75: 两层半楼,所有年龄段

80: 分层或多层住宅

85: 分层门厅住宅

90: 双拼住宅,所有风格和年龄段

120: 一层PUD(规划单元开发),1946年及以后建造

150: 一层半PUD,所有年龄段

160: 两层PUD,1946年及以后建造

180: PUD - 多层(包括分层/门厅住宅)

190: 二家庭改造住宅,所有风格和年龄段

MSZoning: 标识销售的普遍区域划分类型。

复制代码
A: 农业

C: 商业

FV: 漂浮村庄住宅

I: 工业

RH: 高密度住宅

RL: 低密度住宅

RP: 低密度住宅公园

RM: 中密度住宅

LotFrontage: 与街道连接的地段长度(以英尺为单位)。

LotArea: 地块面积(以平方英尺为单位)。

Street: 房产的道路类型。

复制代码
Grvl: 沙砾路

Pave: 铺设路

Alley: 房产的巷道类型。

复制代码
Grvl: 沙砾路

Pave: 铺设路

NA: 无巷道通道

LotShape: 房产的形状。

复制代码
Reg: 正常

IR1: 稍微不规则

IR2: 中等不规则

IR3: 不规则

LandContour: 地块的平坦度。

复制代码
Lvl: 接近平坦/水平

Bnk: 坡度(街道到建筑的高度差异显著)

HLS: 山坡(建筑的两侧存在显著坡度)

Low: 低洼

Utilities: 可用的公用设施类型。

复制代码
AllPub: 所有公用设施(电力、天然气、水、排水)

NoSewr: 仅提供电力、天然气和水(使用化粪池)

NoSeWa: 仅提供电力和天然气

ELO: 仅提供电力

LotConfig: 地块配置。

复制代码
Inside: 内部地块

Corner: 角落地块

CulDSac: 死胡同

FR2: 地块两侧有街道通道

FR3: 地块三侧有街道通道

LandSlope: 地块的坡度。

复制代码
Gtl: 温和坡度

Mod: 中等坡度

Sev: 严重坡度

Neighborhood: 在Ames市区内的位置。

复制代码
示例:Bloomington Heights(布鲁明顿高地)、Bluestem(蓝草地)、Brookside(布鲁克赛德)、College Creek(大学溪)、North Ames(北Ames)、Old Town(老城区)等。

Condition1: 距离各种条件的距离(主要条件)。

复制代码
Artery: 临近主干道

Feedr: 临近喂给路

Norm: 正常

RRNn: 距北南铁路200英尺以内

RRAn: 临近北南铁路

PosN: 临近积极的外部特征(如公园、绿带等)

PosA: 临近积极的外部特征

RRNe: 距东西铁路200英尺以内

RRAe: 临近东西铁路

Condition2: 距离各种条件的距离(次要条件,如果有多个条件)。

BldgType: 住宅类型。

复制代码
1Fam: 独立式单家庭住宅

2FmCon: 二家庭改造住宅(原为单家庭住宅)

Duplx: 双拼住宅

TwnhsE: 端户型联排住宅

TwnhsI: 内部户型联排住宅

HouseStyle: 住宅风格。

复制代码
1Story: 一层住宅

1.5Fin: 一层半住宅(二楼完成)

1.5Unf: 一层半住宅(二楼未完成)

2Story: 两层住宅

2.5Fin: 两层半住宅(完成二楼)

2.5Unf: 两层半住宅(二楼未完成)

SFoyer: 分层门厅住宅

SLvl: 分层住宅

OverallQual: 评估房屋整体材料和装修质量。

复制代码
10: 非常优秀

9: 优秀

8: 非常好

7: 好

6: 优于平均

5: 一般

4: 低于平均

3: 一般

2: 较差

1: 非常差

OverallCond: 评估房屋的整体状况。

复制代码
10: 非常优秀

9: 优秀

8: 非常好

7: 好

6: 优于平均

5: 一般

4: 低于平均

3: 一般

2: 较差

1: 非常差

YearBuilt: 原始建造日期。

YearRemodAdd: 装修或扩建日期(如果没有装修或扩建,则与建造日期相同)。

RoofStyle: 屋顶类型。

复制代码
Flat: 平顶

Gable: 山形屋顶

Gambrel: 甘布雷尔(谷仓屋顶)

Hip: 四坡屋顶

Mansard: 曼萨尔屋顶

Shed: 单坡屋顶

RoofMatl: 屋顶材料。

复制代码
ClyTile: 陶土或瓦片

CompShg: 标准复合瓦片

Membran: 薄膜材料

Metal: 金属

Roll: 卷材

Tar&Grv: 沥青和碎石

WdShake: 木质瓦片

WdShngl: 木瓦

Exterior1st: 房屋外部覆盖材料。

示例:石棉瓦、沥青瓦、砖面、混凝土板、金属外立面等。

Exterior2nd: 房屋外部第二层覆盖材料(如果有多个材料)。

MasVnrType: 砌体饰面类型。

复制代码
BrkCmn: 普通砖

BrkFace: 砖面

CBlock: 水泥块

None: 无饰面

Stone: 石材

MasVnrArea: 砌体饰面面积(平方英尺)。

ExterQual: 外部材料质量。

复制代码
Ex: 优秀

Gd: 良好

TA: 一般/典型

Fa: 较差

Po: 极差

ExterCond: 外部材料的现有状况。

复制代码
Ex: 优秀

Gd: 良好

TA: 一般/典型

Fa: 较差

Po: 极差
相关推荐
程序猿追41 分钟前
PyTorch算子模板库技术解读:无缝衔接PyTorch模型与Ascend硬件的桥梁
人工智能·pytorch·python·深度学习·机器学习
xieyan08111 小时前
强化学习工具及优化方法
人工智能
秋邱1 小时前
高等教育 AI 智能体的 “导学诊践” 闭环
开发语言·网络·数据库·人工智能·python·docker
数据的世界011 小时前
重构智慧书-第3条:公开有界,保密有度:行事的分寸准则
人工智能
许泽宇的技术分享1 小时前
AgentFramework-零基础入门-第08章_部署和监控代理
人工智能·后端·agent框架·agentframework
数据与后端架构提升之路1 小时前
Map-World:用“填空”与“路径积分”重构自动驾驶规划范式
人工智能·自动驾驶·世界模型·锚点预测
陈天伟教授1 小时前
机器学习方法(4)强化学习(试错学习)
人工智能·学习·机器学习
青瓷程序设计2 小时前
【宠物识别系统】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积神经网络算法
人工智能·python·深度学习
IT_陈寒2 小时前
Python开发者必看:5个被低估但能提升200%编码效率的冷门库实战
前端·人工智能·后端