Day 28 复习日

泰坦尼克号生还预测比赛代码示例

复制代码
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 1. 加载数据集
train_data = pd.read_csv('/kaggle/input/titanic/train.csv')
test_data = pd.read_csv('/kaggle/input/titanic/test.csv')

# 2. 数据预处理
def preprocess(data):
    # 填充缺失值
    data['Age'].fillna(data['Age'].median(), inplace=True)
    data['Embarked'].fillna(data['Embarked'].mode()[0], inplace=True)
    data['Fare'].fillna(data['Fare'].median(), inplace=True)
    # 提取特征
    features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
    X = pd.get_dummies(data[features])  # 类别特征独热编码
    return X

X_train = preprocess(train_data)
y_train = train_data['Survived']
X_test = preprocess(test_data)

# 3. 训练模型
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 4. 预测并生成提交文件
predictions = model.predict(X_test)
submission = pd.DataFrame({
    'PassengerId': test_data['PassengerId'],
    'Survived': predictions
})
submission.to_csv('submission.csv', index=False)

@浙大疏锦行

相关推荐
BBB努力学习程序设计2 分钟前
Python多线程与多进程编程实战指南
python
雪落无尘处3 分钟前
Anaconda 虚拟环境配置全攻略+Pycharm使用虚拟环境开发:从安装到高效管理
后端·python·pycharm·conda·anaconda
Amelia11111116 分钟前
day36
python
Ma04071320 分钟前
【论文阅读27】-LMPHM:基于因果网络和大语言模型-增强知识图网络的故障推理诊断
人工智能·语言模型·自然语言处理
Nautiluss20 分钟前
一起调试XVF3800麦克风阵列(二)
大数据·人工智能·嵌入式硬件·音频·语音识别·dsp开发
玖日大大23 分钟前
AI智能体聚焦场景化应用,赋能产业创新与效率提升
大数据·人工智能
不惑_25 分钟前
通俗理解多层感知机(MLP)
开发语言·人工智能·python·深度学习
小徐Chao努力29 分钟前
【Langchain4j-Java AI开发】02-模型参数配置与调优
java·开发语言·人工智能
代码代码快快显灵31 分钟前
Windows下Anaconda安装OpenCV以及OpenCV入门
图像处理·人工智能·opencv
码农进厂打螺丝36 分钟前
Stable Diffusion 3.5 FP8:量化优化与部署实践
人工智能·计算机视觉·stable diffusion