tokenizer.apply_chat_template()

tokenizer.apply_chat_template() 是 Hugging Face transformers 库中用于将对话历史(messages)格式化为模型可接受的输入文本 的关键方法,尤其在使用 Chat 模型(如 Qwen、Llama-3、ChatGLM、Phi-3 等) 时必不可少。


作用

将结构化的对话列表(如 [{"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}]

→ 转换为模型训练/推理时使用的 带特殊 token 的字符串 (如 <|im_start|>user\n你好<|im_end|>\n<|im_start|>assistant\n...)。


基本用法

复制代码
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-0.6B")

messages = [
    {"role": "user", "content": "你好!"},
    {"role": "assistant", "content": "你好呀!有什么我可以帮你的吗?"},
    {"role": "user", "content": "今天天气怎么样?"}
]

# 应用聊天模板
prompt = tokenizer.apply_chat_template(
    messages,
    tokenize=False,      # 返回字符串(False)还是 token IDs(True)
    add_generation_prompt=True  # 是否在末尾添加 assistant 开始标记(用于生成)
)

print(prompt)
输出示例(Qwen3 格式):
复制代码
<|im_start|>system
You are a helpful assistant.<|im_end|>
<|im_start|>user
你好!<|im_end|>
<|im_start|>assistant
你好呀!有什么我可以帮你的吗?<|im_end|>
<|im_start|>user
今天天气怎么样?<|im_end|>
<|im_start|>assistant

注意:Qwen3 默认会自动插入 system message(若未提供),可通过 add_system_message=False 关闭。


关键参数说明

参数 类型 说明
conversation List[Dict] 对话历史,每个 dict 含 "role"(user/assistant/system)和 "content"
tokenize bool False → 返回 str;True → 返回 List[int](token IDs)
add_generation_prompt bool 若为 True,在末尾加上 `"<
return_tensors str (e.g., "pt") tokenize=True 时,返回张量类型(需配合 padding, truncation 使用)

常见场景

1. 推理时构造 prompt
复制代码
messages = [
{"role": "system", "content": "你是一个助手。"},
{"role": "user", "content": "你好"}]

input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
).to("cuda")
2. 微调时预处理数据集
复制代码
def format_example(example):
    return {
        "text": tokenizer.apply_chat_template(
            example["messages"],
            tokenize=False,
            add_generation_prompt=False  # 微调时通常包含完整对话(含 assistant 回复)
        )
    }

dataset = raw_dataset.map(format_example)
3. 自定义聊天模板(高级)

如果模型没有内置 template,可手动设置:

复制代码
tokenizer.chat_template = "{% for message in messages %}{{message['role']}}: {{message['content']}}\n{% endfor %}"

注意事项

  1. 不是所有 tokenizer 都支持

    • 需要模型在 HF Hub 上定义 chat_template(现代 Chat 模型基本都支持)
    • 可通过 tokenizer.chat_template 查看当前模板
  2. Qwen / Llama-3 / Yi 等格式不同

    • Qwen 使用 <|im_start|> / <|im_end|>
    • Llama-3 使用 <|start_header_id|>user<|end_header_id|>\n\n...<|eot_id|>
    • 不要混用模板!
  3. 微调 vs 推理的差异

    • 微调:输入应包含 完整对话(user + assistant)
    • 推理:只给 user 输入,设 add_generation_prompt=True

如何查看当前 tokenizer 的聊天模板?

复制代码
print(tokenizer.chat_template)
# 或美化输出
import json
print(json.dumps(tokenizer.chat_template, indent=2))
相关推荐
简简单单做算法20 小时前
基于GA遗传优化的Transformer-LSTM网络模型的时间序列预测算法matlab性能仿真
深度学习·matlab·lstm·transformer·时间序列预测·ga遗传优化·电池剩余寿命预测
带娃的IT创业者1 天前
MLP vs Transformer:不同问题用不同工具
人工智能·深度学习·神经网络·transformer·架构设计·mlp
code_pgf1 天前
Transformer 原理讲解及可视化算子操作
人工智能·深度学习·transformer
星川皆无恙1 天前
Vision Transformer学习笔记:从 Attention 核心理论到 PyTorch 源码实战
pytorch·深度学习·transformer
<-->1 天前
DeepSpeed 学习指南
人工智能·pytorch·python·深度学习·transformer
茴香豆的茴3 天前
手撕 Transformer (5):模型构建
transformer
小超同学你好3 天前
Transformer 23. Qwen 3.5 架构介绍:混合线性/全注意力、MoE 与相对 Qwen 1 / 2 / 3 的演进
人工智能·深度学习·语言模型·架构·transformer
刘 大 望3 天前
RAG相关技术介绍及Spring AI中使用--第一期
java·人工智能·spring·机器学习·ai·aigc·transformer
小超同学你好4 天前
Transformer 22. Gemma 1 架构详解:Decoder-only、GeGLU、RoPE 与每一步计算
人工智能·深度学习·transformer
lin_dec+4 天前
KV Cache:大模型推理加速的关键技术
nlp·transformer·vllm·大模型推理·kv cache