目录

泰坦尼克号 - 从灾难中学习机器学习/Titanic - Machine Learning from Disaster(kaggle竞赛)第二集(加载数据)

此次目的:

hello大家好,俺是没事爱瞎捣鼓又分享欲爆棚的叶同学!!!准备出几期博客来记录我学习kaggle数据科学入门竞赛的过程,顺便也将其中所学习到的知识分享出来。这是第一集(了解赛题),后面还会更新更详尽的代码和讲解等。(所学主要的内容来自与b站大学恩师"编程教学-Python"的教学视频内容)

在获取到数据后的第一步,我们一个去加载数据,将数据导入,代码如下:

1. 导入相关包

python 复制代码
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd
import seaborn as sns

首先,导入了一些基础的Python库:

  • warnings :用于管理Python警告。通过warnings.filterwarnings('ignore')这行代码,忽略了所有的警告信息,确保在运行代码时不会因为警告而导致输出过多无关信息。
  • numpy:一个强大的数值计算库,主要用于数组和矩阵的操作。
  • pandas:用于数据处理和分析的库,特别擅长处理结构化数据,如表格。
  • seaborn:基于Matplotlib的高级数据可视化库,提供了更为简洁和美观的绘图风格。

2. 设置Seaborn样式

python 复制代码
sns.set(style='white', context='notebook', palette='muted')

这行代码设置了Seaborn的全局绘图样式。具体参数的含义如下:

  • style='white':背景样式为白色。
  • context='notebook':设置绘图的上下文为笔记本,这通常意味着图表元素的大小适合于Jupyter Notebook。
  • palette='muted':颜色调色板为柔和的颜色,适合数据分析和展示。

3. 导入Matplotlib库

python 复制代码
import matplotlib.pyplot as plt

Matplotlib是Python中最常用的绘图库,而pyplot是其子模块,用于快速绘制各种类型的图表。

4. 导入数据

python 复制代码
train = pd.read_csv('./train.csv')
test = pd.read_csv('./test.csv')

这两行代码分别从指定的文件路径加载训练集和测试集数据。数据以CSV格式存储,通过pandasread_csv函数加载到DataFrame中,这是一种用于处理表格数据的结构。(这里的./train.csv和./test.csv是两个文件存放地址,可能与我不一样哈)

5. 显示数据头部信息

python 复制代码
display(train.head())

head()函数用于查看DataFrame的前几行数据。默认情况下,head()函数会返回前5行数据。display()函数用于在Jupyter Notebook中更友好地显示输出。(默认是输出5行,如果想输出例如10行,就可以改为"head(10)")

6. 完整代码

python 复制代码
#导入相关包
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd
import seaborn as sns

#设置sns样式
sns.set(style='white',context='notebook',palette='muted')
import matplotlib.pyplot as plt

#导入数据
train=pd.read_csv('./train.csv')
test=pd.read_csv('./test.csv')
display(train.head())

7.运行结果

我们可以看到该表中有几个基本数据:

Passengerld(编号),

Survived(生存 0 = 否,1 = 是),

Pclass(机票等级 1 = 第一等,2 = 第二等,3 = 第三等),

Name(名字),

Sex(性别),

Age(年龄),

SibSp(同胞:泰坦尼克号上的兄弟姐妹/配偶人数),

Parch(泰坦尼克号上的父母/儿童人数),

Ticket(机票号码),

Fare(乘客票价),

Cabin(舱位号),

Embarked.(登船港 C = 瑟堡、Q = 皇后镇、S = 南安普敦)

8.总结

这一集是比较基础的几个操作,主要就是将两个csv文件中的数据加载出来,并显示前几行。然后了解各列数据的含义。大家如果感兴趣的话也可以去了解一下Seaborn知识,如果需要的话,我也可以出一期相关介绍的博客。大家加油!!!俺自己也加油嘿嘿嘿!!!(情绪小妙招:每天鼓励夸奖自己很有效哦)

本文是转载文章,点击查看原文
如有侵权,请联系 xyy@jishuzhan.net 删除
相关推荐
charlie114514191几秒前
STM32F103C8T6单片机的起始点:使用GPIO输出点亮我们的第一个小灯(HAL库版本)
stm32·单片机·嵌入式硬件·学习·教程·hal库·gpio
啥都鼓捣的小yao28 分钟前
Python解决“数字插入”问题
python·算法
csssnxy28 分钟前
叁仟数智指路机器人是否支持远程监控和管理?
大数据·人工智能
csdn_aspnet31 分钟前
如何在 Linux 上安装 Python
linux·运维·python
车斗1 小时前
win10 笔记本电脑安装 pytorch+cuda+gpu 大模型开发环境过程记录
人工智能·pytorch·电脑
KY_chenzhao1 小时前
数据驱动防灾:AI 大模型在地质灾害应急决策中的关键作用。基于DeepSeek/ChatGPT的AI智能体开发
人工智能·chatgpt·智能体·deepseek·本地化部署
大多_C1 小时前
量化方法分类
人工智能·分类·数据挖掘
jimin_callon1 小时前
VBA第三十八期 VBA自贡分把表格图表生成PPT
开发语言·python·powerpoint·编程·vba·deepseek
www_pp_1 小时前
# 基于 OpenCV 的人脸识别实战:从基础到进阶
人工智能·opencv·计算机视觉
每次的天空1 小时前
Android学习总结之算法篇五(字符串)
android·学习·算法