pythonstudy Day24

复习日

@疏锦行



c 复制代码
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier

# 1. 读入数据(注意路径:Kaggle Notebook 里直接就是 /kaggle/input/...)
train = pd.read_csv("/kaggle/input/titanic/train.csv")
test = pd.read_csv("/kaggle/input/titanic/test.csv")

# 2. 简单特征工程
# 选择一些比较有用的特征
features = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked"]

train = train[features + ["Survived"]]
test_features = test[features]

# 处理缺失值
# Age 和 Fare 用中位数填充,Embarked 用众数填充
for df in [train, test_features]:
    df["Age"].fillna(df["Age"].median(), inplace=True)
    df["Fare"].fillna(df["Fare"].median(), inplace=True)
    df["Embarked"].fillna(df["Embarked"].mode()[0], inplace=True)

# 把 Sex 和 Embarked 变成数字(one-hot 编码)
train = pd.get_dummies(train, columns=["Sex", "Embarked"])
test_features = pd.get_dummies(test_features, columns=["Sex", "Embarked"])

# 对齐列(避免测试集缺某些 dummy 列)
test_features = test_features.reindex(columns=train.drop("Survived", axis=1).columns, fill_value=0)

X = train.drop("Survived", axis=1)
y = train["Survived"]

# 3. 划分一部分训练集做本地验证(可选)
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.2, random_state=42)

# 4. 训练模型(随机森林只是示例,其他模型也可以)
model = RandomForestClassifier(
    n_estimators=200,
    max_depth=5,
    random_state=42
)
model.fit(X_train, y_train)

# 在验证集上看一下效果(仅自我检查)
y_pred_valid = model.predict(X_valid)
print("Validation accuracy:", accuracy_score(y_valid, y_pred_valid))

# 5. 用全部训练数据重新训练,然后在测试集上预测
model.fit(X, y)
test_pred = model.predict(test_features)

# 6. 生成提交文件
submission = pd.DataFrame({
    "PassengerId": test["PassengerId"],
    "Survived": test_pred
})

submission.to_csv("submission.csv", index=False)
print("submission.csv 已保存")
相关推荐
聆风吟º17 分钟前
CANN runtime 实战指南:异构计算场景中运行时组件的部署、调优与扩展技巧
人工智能·神经网络·cann·异构计算
Codebee2 小时前
能力中心 (Agent SkillCenter):开启AI技能管理新时代
人工智能
聆风吟º3 小时前
CANN runtime 全链路拆解:AI 异构计算运行时的任务管理与功能适配技术路径
人工智能·深度学习·神经网络·cann
uesowys3 小时前
Apache Spark算法开发指导-One-vs-Rest classifier
人工智能·算法·spark
AI_56783 小时前
AWS EC2新手入门:6步带你从零启动实例
大数据·数据库·人工智能·机器学习·aws
User_芊芊君子3 小时前
CANN大模型推理加速引擎ascend-transformer-boost深度解析:毫秒级响应的Transformer优化方案
人工智能·深度学习·transformer
智驱力人工智能4 小时前
小区高空抛物AI实时预警方案 筑牢社区头顶安全的实践 高空抛物检测 高空抛物监控安装教程 高空抛物误报率优化方案 高空抛物监控案例分享
人工智能·深度学习·opencv·算法·安全·yolo·边缘计算
qq_160144874 小时前
亲测!2026年零基础学AI的入门干货,新手照做就能上手
人工智能
Howie Zphile4 小时前
全面预算管理难以落地的核心真相:“完美模型幻觉”的认知误区
人工智能·全面预算
人工不智能5774 小时前
拆解 BERT:Output 中的 Hidden States 到底藏了什么秘密?
人工智能·深度学习·bert