自然语言处理之语言模型(LM):一段Pytorch的LSTM模型对自然语言处理的实际代码

当处理自然语言处理任务时,可以使用PyTorch来实现LSTM模型。下面是一个简单的示例代码,用于情感分类任务。

首先,导入所需的库:

python 复制代码
import torch
import torch.nn as nn
import torch.optim as optim
from torchtext.data import Field, TabularDataset, BucketIterator

定义模型类:

python 复制代码
class LSTMModel(nn.Module):
    def __init__(self, input_dim, embedding_dim, hidden_dim, output_dim):
        super(LSTMModel, self).__init__()
        self.embedding = nn.Embedding(input_dim, embedding_dim)
        self.lstm = nn.LSTM(embedding_dim, hidden_dim)
        self.fc = nn.Linear(hidden_dim, output_dim)
    
    def forward(self, text):
        embedded = self.embedding(text)
        output, (hidden, cell) = self.lstm(embedded)
        hidden = hidden[-1, :, :]
        prediction = self.fc(hidden)
        return prediction.squeeze(0)

定义数据预处理和加载数据函数:

python 复制代码
def preprocess_data():
    # 定义Field对象
    TEXT = Field(tokenize='spacy', lower=True)
    LABEL = Field(sequential=False, is_target=True)
    
    # 加载数据集
    train_data, test_data = TabularDataset.splits(
        path='data_path',
        train='train.csv',
        test='test.csv',
        format='csv',
        fields=[('text', TEXT), ('label', LABEL)]
    )
    
    # 构建词汇表
    TEXT.build_vocab(train_data, vectors='glove.6B.100d')
    LABEL.build_vocab(train_data)
    
    # 构建数据迭代器
    train_iterator, test_iterator = BucketIterator.splits(
        (train_data, test_data),
        batch_size=64,
        sort_within_batch=True,
        sort_key=lambda x: len(x.text),
        device=torch.device('cuda')
    )
    
    return train_iterator, test_iterator, TEXT.vocab.vectors

定义训练函数:

python 复制代码
def train(model, iterator, optimizer, criterion):
    model.train()
    
    for batch in iterator:
        optimizer.zero_grad()
        text, label = batch.text, batch.label
        predictions = model(text)
        loss = criterion(predictions, label)
        loss.backward()
        optimizer.step()

定义评估函数:

python 复制代码
def evaluate(model, iterator, criterion):
    model.eval()
    total_loss = 0
    total_accuracy = 0
    
    with torch.no_grad():
        for batch in iterator:
            text, label = batch.text, batch.label
            predictions = model(text)
            loss = criterion(predictions, label)
            total_loss += loss.item()
            
            _, predicted_label = torch.max(predictions, 1)
            total_accuracy += (predicted_label == label).float().mean().item()
    
    return total_loss / len(iterator), total_accuracy / len(iterator)

最后,实例化模型并进行训练和评估:

python 复制代码
# 定义超参数
input_dim = len(TEXT.vocab)
embedding_dim = 100
hidden_dim = 256
output_dim = 2

# 实例化模型
model = LSTMModel(input_dim, embedding_dim, hidden_dim, output_dim)

# 加载预训练的词向量
pretrained_embeddings = TEXT.vocab.vectors
model.embedding.weight.data.copy_(pretrained_embeddings)

# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters())

# 加载数据
train_iterator, test_iterator, _ = preprocess_data()

# 训练和评估模型
for epoch in range(num_epochs):
    train(model, train_iterator, optimizer, criterion)
    test_loss, test_accuracy = evaluate(model, test_iterator, criterion)
    print(f'Epoch: {epoch+1}, Test Loss: {test_loss:.4f}, Test Accuracy: {test_accuracy:.4f}')

以上代码是一个简单的LSTM模型用于情感分类任务的示例。你可以根据自己的具体任务和数据进行相应的修改和调整。

相关推荐
zhangfeng11335 小时前
国家超算中心 scnet.cn 跨用户文件分享流程总结 多个用户之间 文件共享 不需要反复下载上传
人工智能·语言模型·大模型
ting94520008 小时前
Tornado 全栈技术深度指南:从原理到实战
人工智能·python·架构·tornado
果汁华8 小时前
Browserbase Skills:让 Claude Agent 真正“看见“网页世界
人工智能·python
ZhengEnCi8 小时前
04-缩放点积注意力代码实现 💻
人工智能·python
HackTwoHub9 小时前
AI大模型网关存在SQL注入、附 POC 复现、影响版本LiteLLM 1.81.16~1.83.7(CVE-2026-42208)
数据库·人工智能·sql·网络安全·系统安全·网络攻击模型·安全架构
段一凡-华北理工大学9 小时前
【高炉炼铁领域炉温监测、预警、调控智能体设计与应用】~系列文章08:多模态数据融合:让数据更聪明
人工智能·python·高炉炼铁·ai赋能·工业智能体·高炉炉温
网络工程小王10 小时前
【LangChain 大模型6大调用指南】调用大模型篇
linux·运维·服务器·人工智能·学习
HIT_Weston10 小时前
63、【Agent】【OpenCode】用户对话提示词(示例)
人工智能·agent·opencode
CV-杨帆10 小时前
Phi-4-mini-flash-reasoning 部署安装与推理测试完整记录
人工智能
MediaTea10 小时前
AI 术语通俗词典:C4.5 算法
人工智能·算法