Day 28 复习日

泰坦尼克号生还预测比赛代码示例

复制代码
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 1. 加载数据集
train_data = pd.read_csv('/kaggle/input/titanic/train.csv')
test_data = pd.read_csv('/kaggle/input/titanic/test.csv')

# 2. 数据预处理
def preprocess(data):
    # 填充缺失值
    data['Age'].fillna(data['Age'].median(), inplace=True)
    data['Embarked'].fillna(data['Embarked'].mode()[0], inplace=True)
    data['Fare'].fillna(data['Fare'].median(), inplace=True)
    # 提取特征
    features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
    X = pd.get_dummies(data[features])  # 类别特征独热编码
    return X

X_train = preprocess(train_data)
y_train = train_data['Survived']
X_test = preprocess(test_data)

# 3. 训练模型
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 4. 预测并生成提交文件
predictions = model.predict(X_test)
submission = pd.DataFrame({
    'PassengerId': test_data['PassengerId'],
    'Survived': predictions
})
submission.to_csv('submission.csv', index=False)

@浙大疏锦行

相关推荐
eastyuxiao5 小时前
OpenClaw 自动处理核心逻辑
开发语言·人工智能
小郑加油5 小时前
python学习Day10天:列表进阶 + 内置函数 + 代码简化
开发语言·python·学习
数据智能老司机5 小时前
学习 AutoML——理解 AutoML 流水线
机器学习
一次旅行5 小时前
今日AI新闻科技简报总结
人工智能·科技
qq_171538855 小时前
医者仁心:医生职业全景解析
人工智能
漫游的渔夫5 小时前
前端开发者做 Agent:别写成一次请求,用 5 步受控循环防止 AI 乱跑
前端·人工智能·typescript
eastyuxiao5 小时前
影响 OpenClaw 自动处理效率的核心因素
开发语言·人工智能
Luca_kill5 小时前
GPT Image 2 深度评测:当 AI 图像生成跨越“图灵测试”,它如何重塑开发者工作流?
人工智能·深度学习·openai·ai图像生成·gpt image 2
GIS数据转换器5 小时前
“一张图”背景下的地质灾害监测预警与防治能力建设
大数据·人工智能·数据分析·无人机·智慧城市