大模型应用开发学习笔记

Huggingface

下载模型:

复制代码
model_dir=r"G:\python_ws_g\code\LLMProject\session_4\day02_huggingface\transformers_test\model\uer\uer\gpt2-chinese-cluecorpussmall\models--uer--gpt2-chinese-cluecorpussmall\snapshots\c2c0249d8a2731f269414cc3b22dff021f8e07a3"
# 加载模型、分词器
model = AutoModelForCausalLM.from_pretrained(model_dir)
tokenizer = AutoTokenizer.from_pretrained(model_dir)
#

generator = pipeline("text-generation", model=model, tokenizer=tokenizer, device="cuda")

output =generator("你好,我是一款语言模型",max_length=50,num_return_sequences=2)
print(output)

模型结构:

model.safetensors huggingface的模型权重

config.json 模型的配置文件

pytorch_model.bin pytorch的模型权重

special_tokens_map.json 特殊字典

复制代码
{"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}
  1. [UNK]:代表未知词(Unknown),用于表示词汇表中不存在的词。
  2. [SEP]:分隔符(Separator),用于分隔不同的句子或者声明的结束。
  3. [PAD]:填充(Padding),用于在一批序列中对较短的序列进行填充,以使它们达到相同的长度。
  4. [CLS]:分类符(Classification),通常放在文本的最前面,用于在文本分类任务中存放整个序列的表示。
  5. [MASK]:遮罩(Mask),主要用于BERT等预训练模型中的遮蔽语言模型任务,替换输入中的一些词以预测这些被替换的词。

tokenizer_config.json 字典配置

复制代码
{"do_lower_case": false, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "model_max_length": 1024}
  • do_lower_case: 如果设置为false,表示在处理文本时不将所有字符转换为小写。这对于那些大小写敏感的应用场景很重要。
  • unk_token: [UNK],代表未知词标记,用于替换词汇表之外的词。
  • sep_token: [SEP],分隔符标记,用于分隔不同的句子或者声明的结束。
  • pad_token: [PAD],填充标记,用于在一批序列中对较短的序列进行填充,以使它们达到相同的长度。
  • cls_token: [CLS],分类标记,通常放在文本的最前面,用于存放整个序列的表示,特别是在文本分类任务中。
  • mask_token: [MASK],遮罩标记,主要用于BERT等预训练模型中的遮蔽语言模型任务,替换输入中的一些词以预测这些被替换的词。
  • tokenize_chinese_chars: 如果设置为true,表示对中文字符进行标记化处理。这意味着中文字符会被视为单独的标记。
  • strip_accents: 设置为null表示不特别处理重音符号。如果设置为truefalse,则会相应地去除或保留原始文本中的重音。
  • model_max_length: 1024,指定了模型能够接受的最大序列长度。在这个例子中,最大长度设置为1024个标记。

vocab.txt 字典内容

相关推荐
sheeta19981 小时前
LeetCode 每日一题笔记 日期:2026.05.13 题目:1674. 使数组互补的最少操作次数
笔记·算法·leetcode
叁散1 小时前
实验项目1 LTE通信原理与应用
笔记·其他
AOwhisky2 小时前
Docker 学习笔记:镜像分发、容器运行与资源限制
笔记·学习·docker
TANGLONG2224 小时前
【C++】继承详解——基类/派生类、作用域、默认函数、菱形继承(超详细)
java·c语言·c++·经验分享·笔记·ajax
木木_王5 小时前
嵌入式学习 | STM32裸板驱动开发(Day01)入门学习笔记(超详细完整版|点灯实验 + 库函数代码 + 原理全解)
linux·驱动开发·笔记·stm32·学习
largecode6 小时前
能不能让座机号码显示“XX公司”那样的认证名称?申请号码认证方法
经验分享·笔记·音视频·课程设计·oneapi·segmentfault·微信开放平台
Hua-Jay6 小时前
OpenCV联合C++/Qt 学习笔记(十七)----凸包检测、直线检测及点集拟合
c++·笔记·qt·opencv·学习·计算机视觉
是喵斯特ya6 小时前
红日内网靶场1环境搭建
笔记
中屹指纹浏览器7 小时前
2026浏览器插件扩展安全风险溯源与环境隔离防护规范
经验分享·笔记
宵时待雨7 小时前
回溯算法专题1:递归
数据结构·c++·笔记·算法·leetcode·深度优先