Llama开源代码详细解读(1):工具包

本人纯纯新手,因此通过Llama开源代码希望能对LLM有个大致认识。

工具包介绍

python 复制代码
from transformers.utils import (
    add_start_docstrings,
    add_start_docstrings_to_model_forward,
    is_flash_attn_available,
    logging,
    replace_return_docstrings,
)
from transformers.models.llama.configuration_llama import LlamaConfig

python 复制代码
# coding=utf-8
  • utf-8是用于表示unicode字符的编码方式,是互联网标准编码之一。utf-8用1-4个字节表示每个字符。单字节的字符,第一位设为0,后面7位为该符号的Unicode码,对于英文字母,unicode与ASCII编码相同。对于n字节的字符,第一个字节的前n位均设为1,第n+1位设为0,后面字节的前两位均设置为10,剩下的没有提及的,就是该字符的Unicode码。

python 复制代码
import math
  • math工具包提供了对于数学函数的访问,具体在接下来用到再说。

python 复制代码
from typing import List, Optional, Tuple, Union

这四个模块是类型提示模块,允许开发者在代码中指定变量、函数参数和返回值的预期类型,从而提高代码的可读性,使得代码更具自文档性。


python 复制代码
import torch
import torch.nn.functional as F
  • torch.nn.functional是torch中的一个子模块,提供了一组函数式的接口,用于实现各种神经网络操作。具体等到用到的时候再看。

python 复制代码
import torch.utils.checkpoint
  • torch.utils.checkpoint是torch中的一个训练模块,使用内存节约技术,略微增加计算量,减少内存消耗。基本思想是:前向传播的过程中不保存中间激活值,在反向传播的时候重新计算这些激活值。
python 复制代码
from torch import nn
from torch.nn import BCEWithLogitsLoss, CrossEntropyLoss, MSELoss
  • torch.nn提供了多种损失函数。
  • BCEWithLogitsLoss 是用于二分类任务的损失函数,将二分类交叉熵损失和sigmoid函数结合在了一起,从而提高数值稳定性。
  • CrossEntropyLoss是用于多分类任务的损失函数。
  • MSELoss是用于回归任务的损失函数,它计算预测值和真实值之间的均方误差。

python 复制代码
import pdb
  • pdb是python内置的调试器,可以逐行执行代码,设置断点,检查变量值等。
python 复制代码
from transformers.activations import ACT2FN
  • ACT2FN是hugging_face中的一个字典,负责将激活函数的名称映射到相应函数。

python 复制代码
from transformers.modeling_outputs import BaseModelOutputWithPast, CausalLMOutputWithPast, SequenceClassifierOutputWithPast
  • transformers.modeling_outputs定义了一些常见的模型输出类,封装了模型的输出,并提供了更加快捷的访问方式,以上三个用于不同的模型和任务。
  • BaseModelOutputWithPast通常用于基础模型(如transformer)的输出,包含主要的输出(如最后一个隐藏层状态)和额外的一些可选信息(例如,过去的隐藏状态)。
  • CausalLMOutputWithPast通常用于因果语言模型(如GPT)
  • SequenceClassifierOutputWithPast通常用于序列分类模型(如BERT),包含分类logits(分类任务中未经过处理的原始分数)和过去的隐藏状态。

python 复制代码
from transformers.modeling_utils import PreTrainedModel
  • hugging_face用于加载预训练模型的库。

python 复制代码
from transformers.pytorch_utils import ALL_LAYERNORM_LAYERS
  • ALL_LAYERNORM_LAYERS包含了所有可能的LayerNorm层(归一化层)的类型。

python 复制代码
from transformers.utils import (
    add_start_docstrings,
    add_start_docstrings_to_model_forward,
    is_flash_attn_available,
    logging,
    replace_return_docstrings,
)
  • add_start_docstrings为类的文档字符串提供通用的开头文档。
  • add_start_docstrings_to_model_forward为模型的forward方法提供开头的文档字符串。
  • is_flash_attn_available检查Flash Attention是否可用,FA是一种优化注意力机制实现,能显著加快transformer模型的训练与推理速度。
  • logging用于在使用transformer开发时生成和管理日志消息。
  • replace_return_docstrings用于替换函数或者方法的返回值文档字符串。

python 复制代码
from transformers.models.llama.configuration_llama import LlamaConfig
  • LlamaConfig用于配置Llama参数。
相关推荐
陈奕昆1 天前
【LLaMA-Factory实战】Web UI快速上手:可视化大模型微调全流程
前端·ui·llama·大模型微调实战
OJAC近屿智能1 天前
宇树科技开启“人形机器人格斗盛宴”
人工智能·科技·ui·机器人·aigc·llama·近屿智能
mingo_敏3 天前
Windows系统编译支持GPU的llama.cpp
windows·llama
农夫山泉2号3 天前
【“星瑞” O6 评测】 — CPU llama.cpp不同优化速度对比
cpu·llama·llama.cpp·星瑞o6
陈奕昆4 天前
1.1探索 LLaMA-Factory:大模型微调的一站式解决方案
人工智能·llama·大模型微调
吴法刚4 天前
20_大模型微调和训练之-基于LLamaFactory+LoRA微调LLama3后格式合并
人工智能·lora·llama·大模型训练·大模型微调·llama.cpp
小技工丨5 天前
详解大语言模型生态系统概念:lama,llama.cpp,HuggingFace 模型 ,GGUF,MLX,lm-studio,ollama这都是什么?
人工智能·语言模型·llama
陈奕昆5 天前
大模型微调之LLaMA-Factory 系列教程大纲
人工智能·llama·大模型微调·llama-factory
明天一定早睡早起6 天前
Ubuntu20.04 Ollama 配置相关
ubuntu·llama
thesky1234567 天前
llama factory怎么命令行推理图片
深度学习·llama