2024第三届钉钉杯大学生大数据挑战赛倒计时,小编给大家带来非常实用的最后冲刺助力【A题】,(看图资料预览):
中国烟草行业作为国家税收和财政收入的重要支柱,近年来销售收入持续增长。国家对此实行严格的专卖专营制度,通过专卖许可、行政管制、计划生产和政企合一的管理方式,确保烟草市场的有序运行和社会经济目标的优化。烟草产业链涵盖从烟叶种植、加工到卷烟制造、批发、零售等多个环节,形成了上游原材料供应、中游卷烟生产、下游销售管控的完整体系。本问题基于某地区近年来多种品牌烟草的销售数据,数据已经过脱敏和变换处理,每个品牌烟草的销售情况存储在一个Excel文件中,包含五列关键信息,旨在通过这些数据深入分析烟草市场的销售趋势、品牌表现及市场结构等。
2024年钉钉杯B题医疗门诊患者及用药数据案例分析
一、问题描述
1.1 问题1
针对康复医学科一病房,以日期、患者人数、药品总收入、当日病房收入为基础输入数据,构建2个不同类型的时间序列预测模型,分别预测对应的门诊收入数据,目标为表中这个科室空白的数据。
1.2 问题2
针对康复医学科二病房,以日期、患者人数、药品总收入、当日病房收入为基础输入数据,构建2个不同类型的时间序列预测模型,分别预测对应的门诊收入数据,目标为表中这个科室空白的数据。
1.3 问题3
结合上述两个模型,构建集成学习模型,针对康复医学科三病房,预测对应的门诊收入数。
据。已提供的三病房数据可作为集成学习模型微调训练的基础数据。
二、数据准备
1.1 数据加载与清洗
使用Python的Pandas库加载Excel文件。
检查数据中的缺失值、异常值,并进行相应的处理(如填充、删除或插值)。
确保日期列是日期时间格式,以便于时间序列分析。
1.2 特征选择
选择"日期"、"患者人数"、"药品总收入"、"当日病房妆入"作为输入特征。
目标变量是"门诊收入"。