Day 28 复习日

泰坦尼克号生还预测比赛代码示例

复制代码
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 1. 加载数据集
train_data = pd.read_csv('/kaggle/input/titanic/train.csv')
test_data = pd.read_csv('/kaggle/input/titanic/test.csv')

# 2. 数据预处理
def preprocess(data):
    # 填充缺失值
    data['Age'].fillna(data['Age'].median(), inplace=True)
    data['Embarked'].fillna(data['Embarked'].mode()[0], inplace=True)
    data['Fare'].fillna(data['Fare'].median(), inplace=True)
    # 提取特征
    features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
    X = pd.get_dummies(data[features])  # 类别特征独热编码
    return X

X_train = preprocess(train_data)
y_train = train_data['Survived']
X_test = preprocess(test_data)

# 3. 训练模型
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 4. 预测并生成提交文件
predictions = model.predict(X_test)
submission = pd.DataFrame({
    'PassengerId': test_data['PassengerId'],
    'Survived': predictions
})
submission.to_csv('submission.csv', index=False)

@浙大疏锦行

相关推荐
佛珠散了一地8 小时前
ONNX Runtime GPU 推理配置指南
python
德昂信息dataondemand8 小时前
如何评估BI项目的价值与效益
大数据·人工智能
星马梦缘8 小时前
机器学习与模式识别 第八章 MAP与偏方差 模拟卷及答案
人工智能·机器学习·map·岭回归·mle·双重下降
liangshanbo12158 小时前
大模型混合精度训练:原理、选型与实战笔记
人工智能·深度学习
技术小黑8 小时前
CNN算法实战系列08 | ResNeXt-50算法实战与猴痘病识别
人工智能·算法·cnn
四川国阜传动设备有限公司8 小时前
如何根据电机功率正确计算减速机输出扭矩?
人工智能·搜索引擎
格子软件8 小时前
2026年GEO优化系统源码级状态机与多模型调度拆解
java·前端·vue.js·人工智能·vue·geo
数据百晓通8 小时前
重构数据治理范式:2026 主流企业级数据治理平台对标与精准选型
大数据·人工智能·重构
派葛穆8 小时前
Python-pip切换镜像源
开发语言·python·pip
CTA终结者8 小时前
2026年AI量化提效,工具重点要按阶段调整
人工智能·python