本人纯纯新手,因此通过Llama开源代码希望能对LLM有个大致认识。
工具包介绍
python
from transformers.utils import (
add_start_docstrings,
add_start_docstrings_to_model_forward,
is_flash_attn_available,
logging,
replace_return_docstrings,
)
from transformers.models.llama.configuration_llama import LlamaConfig
python
# coding=utf-8
- utf-8是用于表示unicode字符的编码方式,是互联网标准编码之一。utf-8用1-4个字节表示每个字符。单字节的字符,第一位设为0,后面7位为该符号的Unicode码,对于英文字母,unicode与ASCII编码相同。对于n字节的字符,第一个字节的前n位均设为1,第n+1位设为0,后面字节的前两位均设置为10,剩下的没有提及的,就是该字符的Unicode码。
python
import math
- math工具包提供了对于数学函数的访问,具体在接下来用到再说。
python
from typing import List, Optional, Tuple, Union
这四个模块是类型提示模块,允许开发者在代码中指定变量、函数参数和返回值的预期类型,从而提高代码的可读性,使得代码更具自文档性。
python
import torch
import torch.nn.functional as F
- torch.nn.functional是torch中的一个子模块,提供了一组函数式的接口,用于实现各种神经网络操作。具体等到用到的时候再看。
python
import torch.utils.checkpoint
- torch.utils.checkpoint是torch中的一个训练模块,使用内存节约技术,略微增加计算量,减少内存消耗。基本思想是:前向传播的过程中不保存中间激活值,在反向传播的时候重新计算这些激活值。
python
from torch import nn
from torch.nn import BCEWithLogitsLoss, CrossEntropyLoss, MSELoss
- torch.nn提供了多种损失函数。
- BCEWithLogitsLoss 是用于二分类任务的损失函数,将二分类交叉熵损失和sigmoid函数结合在了一起,从而提高数值稳定性。
- CrossEntropyLoss是用于多分类任务的损失函数。
- MSELoss是用于回归任务的损失函数,它计算预测值和真实值之间的均方误差。
python
import pdb
- pdb是python内置的调试器,可以逐行执行代码,设置断点,检查变量值等。
python
from transformers.activations import ACT2FN
- ACT2FN是hugging_face中的一个字典,负责将激活函数的名称映射到相应函数。
python
from transformers.modeling_outputs import BaseModelOutputWithPast, CausalLMOutputWithPast, SequenceClassifierOutputWithPast
- transformers.modeling_outputs定义了一些常见的模型输出类,封装了模型的输出,并提供了更加快捷的访问方式,以上三个用于不同的模型和任务。
- BaseModelOutputWithPast通常用于基础模型(如transformer)的输出,包含主要的输出(如最后一个隐藏层状态)和额外的一些可选信息(例如,过去的隐藏状态)。
- CausalLMOutputWithPast通常用于因果语言模型(如GPT)
- SequenceClassifierOutputWithPast通常用于序列分类模型(如BERT),包含分类logits(分类任务中未经过处理的原始分数)和过去的隐藏状态。
python
from transformers.modeling_utils import PreTrainedModel
- hugging_face用于加载预训练模型的库。
python
from transformers.pytorch_utils import ALL_LAYERNORM_LAYERS
- ALL_LAYERNORM_LAYERS包含了所有可能的LayerNorm层(归一化层)的类型。
python
from transformers.utils import (
add_start_docstrings,
add_start_docstrings_to_model_forward,
is_flash_attn_available,
logging,
replace_return_docstrings,
)
- add_start_docstrings为类的文档字符串提供通用的开头文档。
- add_start_docstrings_to_model_forward为模型的forward方法提供开头的文档字符串。
- is_flash_attn_available检查Flash Attention是否可用,FA是一种优化注意力机制实现,能显著加快transformer模型的训练与推理速度。
- logging用于在使用transformer开发时生成和管理日志消息。
- replace_return_docstrings用于替换函数或者方法的返回值文档字符串。
python
from transformers.models.llama.configuration_llama import LlamaConfig
- LlamaConfig用于配置Llama参数。