自然语言处理之语言模型(LM):一段Pytorch的LSTM模型对自然语言处理的实际代码

当处理自然语言处理任务时,可以使用PyTorch来实现LSTM模型。下面是一个简单的示例代码,用于情感分类任务。

首先,导入所需的库:

python 复制代码
import torch
import torch.nn as nn
import torch.optim as optim
from torchtext.data import Field, TabularDataset, BucketIterator

定义模型类:

python 复制代码
class LSTMModel(nn.Module):
    def __init__(self, input_dim, embedding_dim, hidden_dim, output_dim):
        super(LSTMModel, self).__init__()
        self.embedding = nn.Embedding(input_dim, embedding_dim)
        self.lstm = nn.LSTM(embedding_dim, hidden_dim)
        self.fc = nn.Linear(hidden_dim, output_dim)
    
    def forward(self, text):
        embedded = self.embedding(text)
        output, (hidden, cell) = self.lstm(embedded)
        hidden = hidden[-1, :, :]
        prediction = self.fc(hidden)
        return prediction.squeeze(0)

定义数据预处理和加载数据函数:

python 复制代码
def preprocess_data():
    # 定义Field对象
    TEXT = Field(tokenize='spacy', lower=True)
    LABEL = Field(sequential=False, is_target=True)
    
    # 加载数据集
    train_data, test_data = TabularDataset.splits(
        path='data_path',
        train='train.csv',
        test='test.csv',
        format='csv',
        fields=[('text', TEXT), ('label', LABEL)]
    )
    
    # 构建词汇表
    TEXT.build_vocab(train_data, vectors='glove.6B.100d')
    LABEL.build_vocab(train_data)
    
    # 构建数据迭代器
    train_iterator, test_iterator = BucketIterator.splits(
        (train_data, test_data),
        batch_size=64,
        sort_within_batch=True,
        sort_key=lambda x: len(x.text),
        device=torch.device('cuda')
    )
    
    return train_iterator, test_iterator, TEXT.vocab.vectors

定义训练函数:

python 复制代码
def train(model, iterator, optimizer, criterion):
    model.train()
    
    for batch in iterator:
        optimizer.zero_grad()
        text, label = batch.text, batch.label
        predictions = model(text)
        loss = criterion(predictions, label)
        loss.backward()
        optimizer.step()

定义评估函数:

python 复制代码
def evaluate(model, iterator, criterion):
    model.eval()
    total_loss = 0
    total_accuracy = 0
    
    with torch.no_grad():
        for batch in iterator:
            text, label = batch.text, batch.label
            predictions = model(text)
            loss = criterion(predictions, label)
            total_loss += loss.item()
            
            _, predicted_label = torch.max(predictions, 1)
            total_accuracy += (predicted_label == label).float().mean().item()
    
    return total_loss / len(iterator), total_accuracy / len(iterator)

最后,实例化模型并进行训练和评估:

python 复制代码
# 定义超参数
input_dim = len(TEXT.vocab)
embedding_dim = 100
hidden_dim = 256
output_dim = 2

# 实例化模型
model = LSTMModel(input_dim, embedding_dim, hidden_dim, output_dim)

# 加载预训练的词向量
pretrained_embeddings = TEXT.vocab.vectors
model.embedding.weight.data.copy_(pretrained_embeddings)

# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters())

# 加载数据
train_iterator, test_iterator, _ = preprocess_data()

# 训练和评估模型
for epoch in range(num_epochs):
    train(model, train_iterator, optimizer, criterion)
    test_loss, test_accuracy = evaluate(model, test_iterator, criterion)
    print(f'Epoch: {epoch+1}, Test Loss: {test_loss:.4f}, Test Accuracy: {test_accuracy:.4f}')

以上代码是一个简单的LSTM模型用于情感分类任务的示例。你可以根据自己的具体任务和数据进行相应的修改和调整。

相关推荐
小雷FansUnion1 小时前
深入理解MCP架构:智能服务编排、上下文管理与动态路由实战
人工智能·架构·大模型·mcp
资讯分享周1 小时前
扣子空间PPT生产力升级:AI智能生成与多模态创作新时代
人工智能·powerpoint
叶子爱分享2 小时前
计算机视觉与图像处理的关系
图像处理·人工智能·计算机视觉
鱼摆摆拜拜2 小时前
第 3 章:神经网络如何学习
人工智能·神经网络·学习
一只鹿鹿鹿2 小时前
信息化项目验收,软件工程评审和检查表单
大数据·人工智能·后端·智慧城市·软件工程
张较瘦_2 小时前
[论文阅读] 人工智能 | 深度学习系统崩溃恢复新方案:DaiFu框架的原位修复技术
论文阅读·人工智能·深度学习
cver1232 小时前
野生动物检测数据集介绍-5,138张图片 野生动物保护监测 智能狩猎相机系统 生态研究与调查
人工智能·pytorch·深度学习·目标检测·计算机视觉·目标跟踪
学技术的大胜嗷2 小时前
离线迁移 Conda 环境到 Windows 服务器:用 conda-pack 摆脱硬路径限制
人工智能·深度学习·yolo·目标检测·机器学习
还有糕手2 小时前
西南交通大学【机器学习实验10】
人工智能·机器学习
江瀚视野3 小时前
百度文心大模型4.5系列正式开源,开源会给百度带来什么?
人工智能