tokenizer.apply_chat_template()

tokenizer.apply_chat_template() 是 Hugging Face transformers 库中用于将对话历史(messages)格式化为模型可接受的输入文本 的关键方法,尤其在使用 Chat 模型(如 Qwen、Llama-3、ChatGLM、Phi-3 等) 时必不可少。


作用

将结构化的对话列表(如 [{"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}]

→ 转换为模型训练/推理时使用的 带特殊 token 的字符串 (如 <|im_start|>user\n你好<|im_end|>\n<|im_start|>assistant\n...)。


基本用法

复制代码
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-0.6B")

messages = [
    {"role": "user", "content": "你好!"},
    {"role": "assistant", "content": "你好呀!有什么我可以帮你的吗?"},
    {"role": "user", "content": "今天天气怎么样?"}
]

# 应用聊天模板
prompt = tokenizer.apply_chat_template(
    messages,
    tokenize=False,      # 返回字符串(False)还是 token IDs(True)
    add_generation_prompt=True  # 是否在末尾添加 assistant 开始标记(用于生成)
)

print(prompt)
输出示例(Qwen3 格式):
复制代码
<|im_start|>system
You are a helpful assistant.<|im_end|>
<|im_start|>user
你好!<|im_end|>
<|im_start|>assistant
你好呀!有什么我可以帮你的吗?<|im_end|>
<|im_start|>user
今天天气怎么样?<|im_end|>
<|im_start|>assistant

注意:Qwen3 默认会自动插入 system message(若未提供),可通过 add_system_message=False 关闭。


关键参数说明

参数 类型 说明
conversation List[Dict] 对话历史,每个 dict 含 "role"(user/assistant/system)和 "content"
tokenize bool False → 返回 str;True → 返回 List[int](token IDs)
add_generation_prompt bool 若为 True,在末尾加上 `"<
return_tensors str (e.g., "pt") tokenize=True 时,返回张量类型(需配合 padding, truncation 使用)

常见场景

1. 推理时构造 prompt
复制代码
messages = [
{"role": "system", "content": "你是一个助手。"},
{"role": "user", "content": "你好"}]

input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
).to("cuda")
2. 微调时预处理数据集
复制代码
def format_example(example):
    return {
        "text": tokenizer.apply_chat_template(
            example["messages"],
            tokenize=False,
            add_generation_prompt=False  # 微调时通常包含完整对话(含 assistant 回复)
        )
    }

dataset = raw_dataset.map(format_example)
3. 自定义聊天模板(高级)

如果模型没有内置 template,可手动设置:

复制代码
tokenizer.chat_template = "{% for message in messages %}{{message['role']}}: {{message['content']}}\n{% endfor %}"

注意事项

  1. 不是所有 tokenizer 都支持

    • 需要模型在 HF Hub 上定义 chat_template(现代 Chat 模型基本都支持)
    • 可通过 tokenizer.chat_template 查看当前模板
  2. Qwen / Llama-3 / Yi 等格式不同

    • Qwen 使用 <|im_start|> / <|im_end|>
    • Llama-3 使用 <|start_header_id|>user<|end_header_id|>\n\n...<|eot_id|>
    • 不要混用模板!
  3. 微调 vs 推理的差异

    • 微调:输入应包含 完整对话(user + assistant)
    • 推理:只给 user 输入,设 add_generation_prompt=True

如何查看当前 tokenizer 的聊天模板?

复制代码
print(tokenizer.chat_template)
# 或美化输出
import json
print(json.dumps(tokenizer.chat_template, indent=2))
相关推荐
AndrewHZ1 天前
【LLM技术全景】开源大模型生态:如何选择适合你的基座模型?
人工智能·深度学习·语言模型·开源·llm·transformer·基座模型
机器学习之心1 天前
扩散模型数据增强 + Transformer-LSTM 回归预测:小样本场景下的工业级解决方案
回归·lstm·transformer·扩散模型
谷哥的小弟1 天前
大模型核心基础知识(18)—Transformer模型的提出背景
人工智能·深度学习·神经网络·大模型·transformer·大语言模型
盼小辉丶1 天前
视觉Transformer实战 | Twins空间注意力机制详解与实现
深度学习·计算机视觉·transformer
吴佳浩 Alben2 天前
Hermes vs OpenClaw:基于源码的 Agent Loop 全面分析
人工智能·ai·transformer
装不满的克莱因瓶2 天前
掌握多头自注意力机制(Multi-Head Self-Attention)——Transformer 强大表达能力的核心来源
人工智能·python·深度学习·数学·ai·transformer
高洁012 天前
知识图谱与推荐系统实战
深度学习·机器学习·transformer·virtualenv·知识图谱
啦啦啦_99993 天前
4. Transformer_4_输出部分
人工智能·深度学习·transformer
CV-deeplearning3 天前
李沐论文精读合集:67 篇深度学习经典论文逐段精读,从 AlexNet 到 Sora,B 站播放百万级的 AI 自学圣经
gpt·大模型·transformer·李沐·论文精读·ai学习路线
啦啦啦_99993 天前
4. Transformer_3_解码器部分
android·深度学习·transformer