招行数字金融挑战赛数据分析赛带赛题二

赛题描述:根据提供的脱敏资讯新闻数据,选手需要对提供的训练集进行特征工程,构建资讯分类模型,对与测试集进行准确的新闻分类。

最终得分:0.8120。十二点关榜没看到排名,估算100+?

训练集很小,只有八千条数据,痛苦了三天,调参加模型效果不升反降。

训练集只有三列:新闻ID,文字,标签,一共四类标签。

根据文本列中的数字个数加入了文本长度特征,能够反映出文本的复杂性或信息量。

python 复制代码
X_train['length'] = X_train['文本'].apply(lambda x: len(str(x).split()))
X_test['length'] = X_test['文本'].apply(lambda x: len(str(x).split()))

文本列使用TfidfVectorizer:将文本数据转换为 TF-IDF 特征。

length列使用StandardScaler:将其转换为均值为 0,标准差为 1 的数值范围。

python 复制代码
preprocessor = ColumnTransformer(
    transformers=[
        ('text_tfidf', TfidfVectorizer(), '文本'),
        ('length_scaler', StandardScaler(), ['length'])
    ],
    remainder='passthrough'
)

选择线性支持向量机作为分类器:

python 复制代码
classifier = LinearSVC(class_weight='balanced', random_state=42, dual=False)

使用 GridSearchCV 来进行超参数调优。

python 复制代码
param_grid = {
    'preprocessor__text_tfidf__ngram_range': [(1, 2)],
    'preprocessor__text_tfidf__max_features': [50000, 70000, 90000],
    'preprocessor__text_tfidf__min_df': [1, 2, 3],
    'preprocessor__text_tfidf__max_df': [0.85, 0.9, 0.95],
    'classifier__C': [0.5, 1.0, 2.0, 5.0, 8.0, 10.0],
}

ngram_range: 设置为 (1, 2),表示我们使用 1-gram 和 2-gram(单词和双词组合)来表示文本特征。

max_features: 控制 TfidfVectorizer 中考虑的最大特征数量。尝试不同的值可以帮助我们找到最佳的特征数量。

min_df 和 max_df: 这些参数控制了 TfidfVectorizer 在选择特征时的文档频率范围,有助于排除低频和高频的噪声词汇。

C: 正则化参数,控制模型的复杂度和对训练数据的拟合程度。

对模型进行了多次交叉验证,以选择最佳参数组合。

python 复制代码
grid_search = GridSearchCV(pipeline, param_grid, cv=cv_strategy,
                           scoring='f1_macro',
                           n_jobs=-1,
                           verbose=2)
best_model = grid_search.best_estimator_
predictions = best_model.predict(X_test)

小白第一次参加类似比赛,大佬轻喷。

相关推荐
大学生毕业题目2 分钟前
毕业项目推荐:83-基于yolov8/yolov5/yolo11的农作物杂草检测识别系统(Python+卷积神经网络)
人工智能·python·yolo·目标检测·cnn·pyqt·杂草识别
RTC老炮4 分钟前
webrtc弱网-LossBasedBweV2类源码分析与算法原理
算法·webrtc
非门由也5 分钟前
《sklearn机器学习——聚类性能指标》Fowlkes-Mallows 得分
机器学习·聚类·sklearn
NMZH105 分钟前
排序算法(全--C语言)
算法·排序算法
Kyln.Wu34 分钟前
【python实用小脚本-205】[HR揭秘]手工党逐行查Bug的终结者|Python版代码质量“CT机”加速器(建议收藏)
开发语言·python·bug
计算机毕业设计木哥36 分钟前
Python毕业设计推荐:基于Django的饮食计划推荐与交流分享平台 饮食健康系统 健康食谱计划系统
开发语言·hadoop·spring boot·后端·python·django·课程设计
對玛祷至昏42 分钟前
算法学习路径
学习·算法·排序算法
小草cys1 小时前
在树莓派集群上部署 Distributed Llama (Qwen 3 14B) 详细指南
python·llama·树莓派·qwen
数据科学作家4 小时前
学数据分析必囤!数据分析必看!清华社9本书覆盖Stata/SPSS/Python全阶段学习路径
人工智能·python·机器学习·数据分析·统计·stata·spss
Yingye Zhu(HPXXZYY)5 小时前
ICPC 2023 Nanjing R L 题 Elevator
算法