【第四章:大模型(LLM)】05.LLM实战: 实现GPT2-(6)贪婪编码,temperature及tok原理及实现

第四章:大模型(LLM)

第五部分:LLM实战: 实现GPT2

第六节:贪婪编码,temperature及tok原理及实现


1. 贪婪解码(Greedy Decoding)

在 GPT-2 等自回归语言模型中,文本生成是一步步预测下一个 token 的过程。
贪婪解码(Greedy Decoding)是最简单的一种生成策略:

  • 在每一步预测中,直接选择概率最大的下一个 token。

  • 优点:速度快、实现简单。

  • 缺点:可能陷入局部最优,导致生成的文本缺乏多样性。

公式:

PyTorch 实现示例:

python 复制代码
def greedy_decode(model, tokenizer, prompt, max_length=50):
    tokens = tokenizer.encode(prompt, return_tensors='pt')
    for _ in range(max_length):
        logits = model(tokens).logits
        next_token = torch.argmax(logits[:, -1, :], dim=-1)
        tokens = torch.cat([tokens, next_token.unsqueeze(0)], dim=1)
    return tokenizer.decode(tokens[0])

2. Temperature 参数

在生成任务中,Temperature 用于控制模型输出分布的"平滑度":

  • Temperature = 1:正常 softmax 概率。

  • Temperature < 1:放大高概率 token 的差距,使模型更保守(确定性更高)。

  • Temperature > 1:平滑概率分布,使低概率 token 更容易被采样(多样性更高)。

修改 logits 的方式:

实现:

python 复制代码
def apply_temperature(logits, temperature=1.0):
    return logits / temperature

3. Token 原理

GPT-2 使用 Byte Pair Encoding (BPE) 分词:

  • 将文本切分为子词单元(subword),常见词保持完整,生僻词拆分成多个子单元。

  • 英文可以按空格分词,但 BPE 能更好地兼顾词汇表大小与覆盖率。

  • 中文 BPE 会将常用字、常用词直接作为 token,罕见组合才拆分。

优点:

  • 减少词表大小,降低模型参数量。

  • 能处理 OOV(未登录词)问题。

简单 BPE 分词示例:

python 复制代码
from transformers import GPT2Tokenizer
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
tokens = tokenizer.encode("机器学习是一门有趣的学科")
print(tokens)         # Token ID 列表
print(tokenizer.decode(tokens))  # 再解码回文本

4. 结合实现:带 Temperature 的贪婪解码

python 复制代码
import torch

def generate_with_temperature(model, tokenizer, prompt, max_length=50, temperature=1.0):
    tokens = tokenizer.encode(prompt, return_tensors='pt')
    for _ in range(max_length):
        logits = model(tokens).logits[:, -1, :]
        logits = logits / temperature  # 调整温度
        probs = torch.softmax(logits, dim=-1)
        next_token = torch.argmax(probs, dim=-1)
        tokens = torch.cat([tokens, next_token.unsqueeze(0)], dim=1)
    return tokenizer.decode(tokens[0])

# 使用示例
# result = generate_with_temperature(model, tokenizer, "从前有座山", temperature=0.7)
# print(result)

5. 小结表格

概念 功能 优点 缺点
贪婪解码 每步选概率最大 token 简单、快 缺乏多样性
Temperature < 1 让模型更确定 连贯性高 容易重复
Temperature > 1 增加多样性 生成有创意 容易偏离主题
Token(BPE) 压缩词表,子词编码 减少参数 分词依赖预训练
相关推荐
爱读书的小胖1 分钟前
无偿分享ChatGPT Image 2画图网页与并发绘图python程序【Ai绘图】
开发语言·python·chatgpt
我命由我1234515 分钟前
Jetpack Room - Room 查询返回列表无需判空、LIKE 关键字
android·java·开发语言·java-ee·android jetpack·android-studio·android runtime
goodluckyaa24 分钟前
Warp shuffle函数
开发语言
j7~26 分钟前
【C++】STL--Vector容器--拆析解剖Vector的实现以及Vector的底层详解(1)
开发语言·c++·vector·迭代器失效·迭代器的使用
xxwl58531 分钟前
Python语言初步认识(1)
开发语言·python·学习
z落落36 分钟前
C# FileStream文件流读取文件
开发语言·c#
朝星38 分钟前
Android开发[14]:网络优化之OkHttp
android·okhttp·kotlin
砍材农夫38 分钟前
python环境|conda安装和使用(1)
开发语言·后端·python·conda
私人珍藏库40 分钟前
[Android] FX Player-安卓全格式播放器-比MX播放器好用
android·学习·工具·软件·多功能
星环科技1 小时前
数据标准Agent ,让企业数据说同一种语言
java·开发语言·前端