kaggle赛后总结

1. 宽表

2.缺失值的处理方法

  • 最简单粗暴的就是删除,这种情况是凡是有缺失值行数很少。
  • 均值替代。缺失值的行数比较多一点儿的时候,直接删除会影响样本数量,那就均值替代,或者中位数替代等方法。
  • 还有复杂的方法,把有缺失值的列做Y标签,用其他列做X,训练模型,缺失值处用预测值替代,很繁琐,但效果比较好一点。

3.超参搜索

超参搜索通过代码放到每个算法上。这个很有价值,因为模型训练就实现了自动化。模型训练,处理数据处理,特征工程外,很关键的就是调整参数,让模型精度实现最优。

4.不均衡数据处理

主要是不同种类标签的数量有的非常多,有的非常少。把非常少的,进行简单的复制黏贴使每个标签种类的数量达到1000,实现所有标签种类的大体均衡,成为均衡数据

5.书籍推荐

  • 李沐的《统计学习》
  • 周志华《机器学习》

6.hierarchical model,层级模型,分层模型

有2个底层逻辑不同的算法,分别命名为算法1,和,算法2。算法1较弱一点。

我们用算法1的预测结果作为新特征X,放进训练数据集。相当于,我用算法1去训练模型1时,有30个X (x1,x2,~~, x30) , 现在算法1模型的预测结果作为x31,这样训练数据就有31个X了,再算法2去训练模型2,再去做预测。

如果用算法1训练模型1,并把所有训练数据都做预测,预测结果作为新特征x31?

用三折法,(或者五折法),即:把train数据随机均分成三份,dataset1,dataset2,dataset3。拿dataset1和dataset2这两份训练模型合并在一起,用算法1训练模型model3,并对dataset3数据做预测,预测结果Ypred3,作为新特征放进dataset3中,作为新的1/3训练数据dataset3new。

依次类推,分别把用dataset2和dataset3合并起来,依然用算法1训练模型model1,并对dataset1做预测,预测结果Ypred1作为新的特性放进dataset1中,作为新的1/3训练数据dataset1new。

再求出dataset2new,最后合并dataset1new,dataset2new,dataset3new成datasetnew。

使用datasetnew数据做训练,用算法2训练基于算法2的M2。

用train数据(包含dataset1,dataset2,dataset3),用算法1训练模型M1,对testsuperset做预测,预测结果Ypred_testsuperset作为新的特性重新放入testsuperset之中,生testsuperset_new。再用M2对testsuperset_new重新预测,预测结果作为最后结果submission_new提交kaggle。

理论上,这时的精度更好。

这就是分层模型。

注意:算法1和2是不同底层逻辑的不同算法。

7.基于逻辑回归的多分类算法

  • multiple logistical
  • regression model
  • Deep Belief Networks (DBNs)
  • Radial Basis Function Networks (RBFNs)

8.学习器结合

  • 算法1:BLAST
  • 算法2:PSI-BLAST
  • 算法3:HMMER
  • 算法4:HHSearch
    最后将上述结果通过投票规则,选出得票最高的每个sequence的term值,及其相似性的取值。

9.集成学习总结:Adaboosting、随机森林、Bagging、结合策略

10.学习器结合能带来三点好处







相关推荐
sponge'11 分钟前
opencv学习笔记2:卷积、均值滤波、中值滤波
笔记·python·opencv·学习
保持学习ing19 分钟前
Spring注解开发
java·深度学习·spring·框架
databook1 小时前
概率图模型:机器学习的结构化概率之道
python·机器学习·scikit-learn
拾回程序猿的圈圈∞1 小时前
实战二:开发网页端界面完成黑白视频转为彩色视频
python·ai编程
亚林瓜子1 小时前
AWS Elastic Beanstalk + CodePipeline(Python Flask Web的国区CI/CD)
python·ci/cd·flask·web·aws·beanstalk·codepipeline
春末的南方城市1 小时前
中山大学&美团&港科大提出首个音频驱动多人对话视频生成MultiTalk,输入一个音频和提示,即可生成对应唇部、音频交互视频。
人工智能·python·深度学习·计算机视觉·transformer
AI视觉网奇1 小时前
调试快捷键 pycharm vscode
机器学习
深科文库2 小时前
构建 MCP 服务器:第 4 部分 — 创建工具
python·chatgpt·prompt·aigc·agi·ai-native
witton2 小时前
美化显示LLDB调试的数据结构
数据结构·python·lldb·美化·debugger·mupdf·pretty printer
dfsj660112 小时前
LLMs 系列科普文(14)
人工智能·深度学习·算法