光伏预测数据说明

一、数据基本概况
- 数据规模:17,544行×10列,覆盖2023年完整年度数据
- 核心内容:包含气温、太阳辐射强度、光伏输出功率三类核心指标
- 数据格式:Excel表格,核心字段均为数值型(float64),时间字段为datetime型
- 数据质量:总体良好,核心指标无缺失,仅存在冗余空列
二、数据结构与字段说明
数据按时间标记方式自然分为两组,同时存在部分冗余字段,具体如下:
2.1 字段分类详情
| 字段名称 | 数据分组 | 单位 | 完整性 | 核心说明 |
|---|---|---|---|---|
| 气温℃ | 第一组(无日期) | ℃ | 100% | 环境温度监测值 |
| 法向直接辐射W/m² | 第一组(无日期) | W/m² | 100% | 太阳法向直接辐射强度 |
| 光伏MW | 第一组(无日期) | MW | 100% | 光伏电站输出功率 |
| 气温℃.1 | 第二组(有日期) | ℃ | 49.93% | 重复气温字段(与气温℃含义一致) |
| 法向辐射强度 | 第二组(有日期) | W/m² | 49.93% | 重复辐射字段 |
| 光伏 | 第二组(有日期) | MW | 49.93% | 重复功率字段 |
| 日期 | 第二组(有日期) | - | 49.93% | 数据采集日期(2023年全年) |
| Unnamed: 3-5 | 冗余字段 | - | 0% | 完全空列,无实际意义 |
2.2 两组数据特征对比
| 对比维度 | 第一组(无日期标记) | 第二组(有日期标记) |
|---|---|---|
| 数据量 | 8,784行 | 8,760行 |
| 时间特征 | 推测为小时级数据 | 含2023年日期标记 |
| 核心优势 | 数据连续性好 | 时间定位明确 |
| 适用场景 | 连续趋势分析 | 时间关联分析 |
三、数据质量评估
3.1 完整性
- 核心指标(气温、辐射、功率)完整性100%,无缺失值
- 仅存在字段间的交叉缺失(两组数据无重叠缺失)
- 剔除冗余空列后,有效数据占比100%
3.2 一致性
- 两组数据的核心指标范围完全一致(气温-22.6℃43.2℃,功率02768.7MW)
- 相同物理量的单位统一,数据类型规范
3.3 准确性
- 数据符合物理规律(辐射为0时功率也为0)
- 无重复记录,极值在合理范围内
四、数据处理建议
- 删除冗余:优先移除Unnamed: 3-5三个完全空列,减少数据体积
- 数据合并:建议按时间维度合并两组数据,为第一组补充日期信息
- 字段统一:将重复字段重命名(如"气温℃.1"→"气温℃"),避免混淆
- 时间标准化:补充完整时间戳(年-月-日 时:分:秒),便于时间序列分析