深度学习周报(6.8~6.14)

目录

摘要

Abstract

[1 QK-LSTM 复现(续上周)](#1 QK-LSTM 复现(续上周))

[1.1 数据预处理](#1.1 数据预处理)

[1.2 基线构建与训练](#1.2 基线构建与训练)

[2 总结](#2 总结)


摘要

本周主要在上周的基础上对基线模型进行了训练,同时对预处理部分进行了完善。

Abstract

This week, building on last week's work, I mainly trained the baseline models and further refined the preprocessing part.

1 QK-LSTM 复现(续上周)

1.1 数据预处理

训练时发现每轮loss均为Nan,如下图:

检查代码发现可能是因为插值无法处理首尾数据,导致数据边界处仍存在部分无效值,于是在原插值处理后加入下面代码:

python 复制代码
df_6months[pollutants] = df_6months[pollutants].ffill().bfill()

问题得以解决,可视化效果与上周类似。

1.2 基线构建与训练

模型代码与上周一样,训练部分首先设置超参数;

python 复制代码
SEQ_LEN = 3         # 序列(论文
INPUT_DIM = 6       # 输入(实际数据)
HIDDEN_DIM = 16     # 隐藏层(论文)
EPOCHS = 20         # 训练轮次(论文)
LR = 1e-3           # 学习率 (论文)
BATCH_SIZE = 1

其次,取数据、构造时间序列并划分训练与测试集;

python 复制代码
# 取数据
X_raw = df_6months_clean[pollutants].values
y_raw = df_6months_clean["AQI"].values.reshape(-1,1)
#归一化
scaler_x = MinMaxScaler()
scaler_y = MinMaxScaler()
X_raw = scaler_x.fit_transform(X_raw)
y_raw = scaler_y.fit_transform(y_raw)

# 时间序列构造(data-污染物特征,target-AQI,seq_len=3-论文参数)
def build_sequences(data, target, seq_len):

    X, y = [], []
    # 遍历所有时间点,取连续seq_len天作为输入,再后一天作为目标
    for i in range(len(data) - seq_len):
        X.append(data[i:i+seq_len])
        y.append(target[i+seq_len])
    return np.array(X), np.array(y)

# 构建序列数据
X, y = build_sequences(X_raw, y_raw, SEQ_LEN)

# 训练测试划分(原文15~19年训练,20年测试)
split = int(len(X) * 5 / 6)
X_train = torch.tensor(X[:split], dtype=torch.float32)
y_train = torch.tensor(y[:split], dtype=torch.float32)
X_test = torch.tensor(X[split:], dtype=torch.float32)
y_test = torch.tensor(y[split:], dtype=torch.float32)

然后进行训练;

python 复制代码
#模型
model = BaselineLSTM(
    input_dim=6,
    hidden_dim=16,
    output_dim=1
)

# 损失与优化
criterion = nn.MSELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=LR)

for epoch in range(EPOCHS):

    model.train()
    optimizer.zero_grad()   # 清空上一次梯度
    output = model(X_train)
    loss = criterion(output, y_train)
    loss.backward()
    optimizer.step()

    print(f"Epoch {epoch+1}/{EPOCHS}, Loss: {loss.item():.6f}")


model.eval()
with torch.no_grad():
    pred = model(X_test)

# 反归一化
pred = scaler_y.inverse_transform(pred.numpy())
y_true = scaler_y.inverse_transform(y_test.numpy())

效果如下:

预测曲线总体比较平滑,而真实曲线波动幅度比较大。

2 总结

下周努力一把把剩下的主体都搞了,同时对比一下两个模型的效果,同时训练的时候为了固定结果可以加一个随机种子。

相关推荐
带娃的IT创业者1 小时前
深度解析:当 MLX 遇上视觉语言模型,Mac 本地推理的新范式
人工智能·macos·语言模型·视觉语言模型·apple silicon·mlx·mac本地推理
沪漂阿龙1 小时前
LangChain 系列之Tools:让大模型真正连接业务系统
人工智能·python·langchain
竹叶青lvye1 小时前
ROS2自定义接口消息、参数服务案例
人工智能·ros2·具身智能·接口消息·参数服务
AI科技星1 小时前
数术工坊·第八卷 大道归一录・番外・下篇 零界封神・万法归元终章
网络·人工智能·算法·几何学·拓扑学
GZ_TOGOGO1 小时前
Spring AI Alibaba 格式化输出
java·人工智能·spring
Keller-Zhou1 小时前
门店巡检AI图像识别系统技术架构设计
人工智能
giszz1 小时前
【WorkBuddy专栏20】项目指令的深度解析——如何让AI真正理解你的意图
人工智能
小翰生信1 小时前
单细胞m6A研究迎来新利器:Scm6A数据库网站解析
大数据·人工智能·数据库开发·数据库架构·生信分析·atac-seq·染色质可及性分析