DeepSeek-R1-Qwen-32B bpe算法 ,分词器配置 LlamaTokenizerFast

这是一个 DeepSeek 模型的 tokenizer 配置文件(tokenizer_config.json)。让我为你解析其中的关键配置:

bash 复制代码
{
  "add_bos_token": true,
  "add_eos_token": false,
  "bos_token": {
    "__type": "AddedToken",
    "content": "<|begin▁of▁sentence|>",
    "lstrip": false,
    "normalized": true,
    "rstrip": false,
    "single_word": false
  },
  "clean_up_tokenization_spaces": false,
  "eos_token": {
    "__type": "AddedToken",
    "content": "<|end▁of▁sentence|>",
    "lstrip": false,
    "normalized": true,
    "rstrip": false,
    "single_word": false
  },
  "legacy": true,
  "model_max_length": 16384,
  "pad_token": {
    "__type": "AddedToken",
    "content": "<|end▁of▁sentence|>",
    "lstrip": false,
    "normalized": true,
    "rstrip": false,
    "single_word": false
  },
  "sp_model_kwargs": {},
  "unk_token": null,
  "tokenizer_class": "LlamaTokenizerFast",
  "chat_template": "{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% set ns = namespace(is_first=false, is_tool=false, is_output_first=true, system_prompt='') %}{%- for message in messages %}{%- if message['role'] == 'system' %}{% set ns.system_prompt = message['content'] %}{%- endif %}{%- endfor %}{{bos_token}}{{ns.system_prompt}}{%- for message in messages %}{%- if message['role'] == 'user' %}{%- set ns.is_tool = false -%}{{'<|User|>' + message['content']}}{%- endif %}{%- if message['role'] == 'assistant' and message['content'] is none %}{%- set ns.is_tool = false -%}{%- for tool in message['tool_calls']%}{%- if not ns.is_first %}{{'<|Assistant|><|tool▁calls▁begin|><|tool▁call▁begin|>' + tool['type'] + '<|tool▁sep|>' + tool['function']['name'] + '\\n' + '```json' + '\\n' + tool['function']['arguments'] + '\\n' + '```' + '<|tool▁call▁end|>'}}{%- set ns.is_first = true -%}{%- else %}{{'\\n' + '<|tool▁call▁begin|>' + tool['type'] + '<|tool▁sep|>' + tool['function']['name'] + '\\n' + '```json' + '\\n' + tool['function']['arguments'] + '\\n' + '```' + '<|tool▁call▁end|>'}}{{'<|tool▁calls▁end|><|end▁of▁sentence|>'}}{%- endif %}{%- endfor %}{%- endif %}{%- if message['role'] == 'assistant' and message['content'] is not none %}{%- if ns.is_tool %}{{'<|tool▁outputs▁end|>' + message['content'] + '<|end▁of▁sentence|>'}}{%- set ns.is_tool = false -%}{%- else %}{% set content = message['content'] %}{% if '</think>' in content %}{% set content = content.split('</think>')[-1] %}{% endif %}{{'<|Assistant|>' + content + '<|end▁of▁sentence|>'}}{%- endif %}{%- endif %}{%- if message['role'] == 'tool' %}{%- set ns.is_tool = true -%}{%- if ns.is_output_first %}{{'<|tool▁outputs▁begin|><|tool▁output▁begin|>' + message['content'] + '<|tool▁output▁end|>'}}{%- set ns.is_output_first = false %}{%- else %}{{'\\n<|tool▁output▁begin|>' + message['content'] + '<|tool▁output▁end|>'}}{%- endif %}{%- endif %}{%- endfor -%}{% if ns.is_tool %}{{'<|tool▁outputs▁end|>'}}{% endif %}{% if add_generation_prompt and not ns.is_tool %}{{'<|Assistant|>'}}{% endif %}"
}

基本信息

属性 说明
tokenizer_class LlamaTokenizerFast 基于 Fast Llama Tokenizer
model_max_length 16384 最大上下文长度 16K tokens
legacy true 使用传统模式

特殊 Token

Token 内容 用途
BOS (开始符) <|begin▁of▁sentence|> 序列开始标记
EOS (结束符) <|end▁of▁sentence|> 序列结束标记
PAD (填充符) 与 EOS 相同 填充用,与结束符共用

注意:使用 (下划线)表示 SentencePiece 中的空格标记,这是 SPM 的标准做法。

Chat Template 结构

这个 Jinja2 模板定义了对话格式,支持工具调用(Function Calling)

角色标记

  • User : <|User|>
  • Assistant : <|Assistant|>

工具调用标记

复制代码
<|tool▁calls▁begin|>     # 工具调用开始
<|tool▁call▁begin|>       # 单个工具开始
<|tool▁sep|>              # 分隔符
<|tool▁call▁end|>         # 单个工具结束
<|tool▁calls▁end|>        # 工具调用结束

工具输出标记

复制代码
<|tool▁outputs▁begin|>    # 工具输出开始
<|tool▁output▁begin|>     # 单个输出开始
<|tool▁output▁end|>       # 单个输出结束
<|tool▁outputs▁end|>      # 工具输出结束

对话格式示例

普通对话:

复制代码
<|begin▁of▁sentence|>系统提示<|User|>用户输入<|Assistant|>助手回复<|end▁of▁sentence|>

工具调用:

复制代码
<|Assistant|><|tool▁calls▁begin|><|tool▁call▁begin|>function<|tool▁sep|>工具名
```json
{参数}
```<|tool▁call▁end|><|tool▁calls▁end|><|end▁of�sentence|>

关键特性

  1. 支持工具调用:完整的 function calling 标记体系
  2. 生成控制add_generation_prompt 控制是否在末尾添加 <|Assistant|> 提示模型继续生成
  3. 特殊处理 :如果助手回复包含 (特殊换行符),会取其后的内容
  4. 无 UNK tokenunk_token 为 null,遇到未知字符可能有特定处理策略

这是 DeepSeek-V2/V3 或类似模型的典型配置,支持 16K 上下文和原生工具调用能力。

相关推荐
L-影4 分钟前
Agent中的ReAct:类型、作用与避坑指南(下篇)
人工智能·ai·react
itwangyang5204 分钟前
AIDD-人工智能药物发现与设计-利用深度学习从头设计药物,实现逆转疾病相关转录表型
人工智能·深度学习
陈天伟教授5 分钟前
人工智能应用- 预测新冠病毒传染性:07. 预测不同类型病毒的传播能力
人工智能·神经网络·安全·cnn·xss
码头码农16 分钟前
OpenClaw Skill开发实战:从入门到独立发布
开源·markdown
初学者↑16 分钟前
知识图谱可视化系统源码分享
人工智能·知识图谱
志栋智能21 分钟前
告别高昂投入:超自动化IT运维的轻量化实践
大数据·运维·网络·人工智能·自动化
腾视科技TENSORTEC27 分钟前
腾视科技TS-SG-SM7系列AI算力模组:32TOPS算力引擎,开启边缘智能新纪元
大数据·人工智能·科技·ai·ai算力模组·ai模组·ainas
红色石头本尊28 分钟前
3-输出解析器outputParsers
人工智能
Theodore_102235 分钟前
深度学习(12)正则化线性回归中的偏差与方差调试
人工智能·深度学习·算法·机器学习·线性回归
半自定义大剑仙40 分钟前
RUL寿命预测从零讲起
人工智能