Day 28 复习日

泰坦尼克号生还预测比赛代码示例

复制代码
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 1. 加载数据集
train_data = pd.read_csv('/kaggle/input/titanic/train.csv')
test_data = pd.read_csv('/kaggle/input/titanic/test.csv')

# 2. 数据预处理
def preprocess(data):
    # 填充缺失值
    data['Age'].fillna(data['Age'].median(), inplace=True)
    data['Embarked'].fillna(data['Embarked'].mode()[0], inplace=True)
    data['Fare'].fillna(data['Fare'].median(), inplace=True)
    # 提取特征
    features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
    X = pd.get_dummies(data[features])  # 类别特征独热编码
    return X

X_train = preprocess(train_data)
y_train = train_data['Survived']
X_test = preprocess(test_data)

# 3. 训练模型
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 4. 预测并生成提交文件
predictions = model.predict(X_test)
submission = pd.DataFrame({
    'PassengerId': test_data['PassengerId'],
    'Survived': predictions
})
submission.to_csv('submission.csv', index=False)

@浙大疏锦行

相关推荐
小肖爱笑不爱笑1 小时前
LSDSSMs: 基于低秩稀疏分解状态空间模型的红外小目标检测网络(2025, TGRS)
人工智能·目标检测·计算机视觉
荒野火狐1 小时前
【强化学习】关于PPO收敛问题
python·深度学习·机器学习·强化学习
gallonyin1 小时前
【AI智能体】Claude Code 工具架构核心解析:大道至简
人工智能·架构·智能体
Hello.Reader1 小时前
从 0 到 1 跑通第一个 Flink ML 示例
大数据·python·flink
DFT计算杂谈1 小时前
免注册下载各个版本Anaconda3/Miniconda3
python
Apache Flink1 小时前
Apache Flink 2.2.0: 推动实时数据与人工智能融合,赋能AI时代的流处理
人工智能·搜索引擎·百度·flink·apache
小二·1 小时前
DeepSeek应该怎样提问?
人工智能
zhaodiandiandian1 小时前
2025 AI 革命:从技术深耕到产业生态的全面重构
人工智能·重构
得贤招聘官1 小时前
AI 招聘高效解决方案
人工智能