DAY 22 复习日
复习日
仔细回顾一下之前21天的内容,没跟上进度的同学补一下进度。
作业:
自行学习参考如何使用kaggle平台,写下使用注意点,并对下述比赛提交代码
kaggle
一、Kaggle 核心功能学习参考
-
注册与基础设置
- 注册后完善个人资料,关注感兴趣的主题(如机器学习、数据分析)。
- 绑定 GitHub/LinkedIn,方便展示项目经历。
-
探索数据集(Datasets)
- 搜索关键词(如 "COVID-19"、"Titanic")找到数据集,注意数据集的更新时间和许可证(License)。
- 点击 "New Notebook" 可直接在 Kaggle 环境中分析数据。
-
参加竞赛(Competitions)
- 入门推荐:从经典竞赛开始(如 Titanic、House Prices)。
- 仔细阅读竞赛规则:提交格式、截止时间、团队限制(部分比赛禁止私下组队)。
- 使用公开的 Notebook(Kernels)学习他人思路,但需避免直接抄袭。
-
使用 Notebook(现名 Code/Notebooks)
- 支持 Jupyter Notebook,预装 Python/R 的常用库(如 pandas、scikit-learn)。
- 可免费使用 GPU/TPU(需在设置中开启,每周限额约 30 小时)。
-
学习资源
- Kaggle Learn:免费短期课程(如 Python、深度学习)。
- 讨论区(Discussion):提问前先搜索,避免重复问题。
二、使用注意点
-
竞赛注意事项
- 避免过拟合公开榜(Public Leaderboard):不要根据公开榜分数反复调整模型,最终排名以私榜(Private Leaderboard)为准。
- 团队规则:部分比赛禁止合并队伍,组队需在截止前完成。
- 代码与数据保密:禁止在比赛期间公开分享代码或数据。
-
数据集使用规范
- 遵守数据许可证:部分数据集禁止商用(如 CC BY-NC-SA)。
- 引用来源:若使用他人数据集,需在 Notebook 中标注出处。
-
Notebook 使用技巧
- 版本控制:定期保存版本(Save Version),避免丢失进度。
- 资源管理:监控 GPU/TPU 使用时间,避免超额。
- 依赖问题 :预装库可能不全,需在代码开头用
!pip install
安装额外库。 - 网络限制:部分 Notebook 环境无法访问外部 API(如爬虫)。
-
社区礼仪
- 在讨论区提问时,提供清晰背景(如错误日志、代码片段)。
- 给有用的 Notebook 点赞(Upvote)或复现(Fork),鼓励分享。
-
个人账号管理
- 隐私设置:若 Notebook 包含敏感信息,设为私有(Private)。
- 内容备份:重要代码定期下载到本地或同步到 GitHub。
三、效率提升技巧
- 利用模板:复现优秀 Notebook 的结构(如数据预处理-模型训练-可视化)。
- 自动化脚本 :用 Kaggle API 下载数据集或提交结果(需安装
kaggle
库)。 - 协作工具:通过 Kaggle Teams 功能与队友共享 Notebook 和数据。
- 监控资源:在 Notebook 右侧面板查看 CPU/GPU/内存使用情况。
四、常见问题
-
问题 :Notebook 运行缓慢?
解决 :关闭不必要的输出、减少数据加载量、使用.parquet
格式替代.csv
。 -
问题 :提交竞赛结果失败?
解决 :检查文件格式(如submission.csv
)、列名是否匹配。 -
问题 :无法下载数据集?
解决:确认是否接受竞赛规则(需点击 "I Understand and Accept")。
、