Datawhale AI夏令营 机器学习2.1

主要优化点:

  1. 设备品牌分桶

    • 将低频设备品牌归类为"Other"

    • 解决长尾分布问题,减少噪声

  2. 重叠用户策略

    python 复制代码
    test_df['is_new_did'] = test_df['did'].apply( lambda x: user_label_dict[x] if x in user_label_dict else test_df.loc[test_df['did'] == x, 'pred_model'].values[0] )
    • 对于训练集中出现过的用户,直接使用已知标签

    • 充分利用数据特点(测试集93%用户出现在训练集中)

  3. 模型参数优化

    • 减小max_depth(8)和num_leaves(31)防止过拟合

    • 降低learning_rate(0.05)提高稳定性

    • 增加正则化项(lambda_l1, lambda_l2)

    • 增加num_boost_round(2000)配合早停

  4. 阈值搜索优化

    python 复制代码
    thresholds = np.arange(0.1, 0.5, 0.01) # 更精细的阈值搜索
    • 以0.01为步长搜索最佳阈值

    • 更精确地平衡精确率和召回率

分数结果:

相关推荐
工藤学编程9 小时前
零基础学AI大模型之Prompt提示词工程
人工智能·prompt
YEGE学AI算法10 小时前
语音识别的评价指标
人工智能·语音识别
老坛程序员10 小时前
开源项目Sherpa-onnx:全平台离线语音识别的轻量级高性能引擎
人工智能·深度学习·机器学习·语音识别
YEGE学AI算法10 小时前
语音识别-流式和非流式实现方式
人工智能·语音识别
HyperAI超神经10 小时前
AI 论文周报丨视觉语言模型应用/不稳定奇点族新发现/强化学习……一文了解多领域创新趋势与前沿动态
人工智能·ai·语言模型
ahe16810 小时前
用deepseek部署全自动的机器人--bytebot
人工智能
无垠的广袤10 小时前
【LattePanda Mu 开发套件】AI 图像识别网页服务器
服务器·人工智能·python·单片机·嵌入式硬件·物联网
芒果量化10 小时前
ML4T - 第7章第7节 逻辑回归拟合宏观数据Logistic Regression with Macro Data
人工智能·机器学习·逻辑回归·线性回归
西岭千秋雪_10 小时前
RAG核心特性:ETL
数据仓库·人工智能·spring boot·ai编程·etl
无风听海10 小时前
神经网络之Softmax激活函数求导过程
人工智能·深度学习·神经网络