Llama模型家族之使用 ReFT技术对 Llama-3 进行微调（三）为 ReFT 微调准备模型及数据集

# get reft model
reft_config = pyreft.ReftConfig(representations={
    "layer": 8, "component": "block_output",
    "low_rank_dimension": 4,
    "intervention": pyreft.LoreftIntervention(embed_dim=model.config.hidden_size,
    low_rank_dimension=4)})
reft_model = pyreft.get_reft_model(model, reft_config)
reft_model.set_device("cuda")
reft_model.print_trainable_parameters()

这段代码是用于设置和获取一个经过表示层微调（Representation Fine-Tuning，简称REFT）的模型。

# get reft model：这是一行注释，说明接下来的代码将获取REFT模型。
reft_config = pyreft.ReftConfig(...)：创建了一个ReftConfig对象，它是用于配置REFT模型的配置类。配置包括：
- "layer": 8：指定了REFT干预的层数为第8层。
- "component": "block_output"：指定了干预的组件为该层的输出。
- "low_rank_dimension": 4：指定了低秩维度为4，这是LoReFT干预的一个参数，用于控制干预的复杂度。
- "intervention"：定义了干预类型，这里使用的是pyreft.LoreftIntervention，它是一个低秩正则化干预，其中embed_dim参数设置为模型的隐藏层维度，low_rank_dimension也设置为4。
reft_model = pyreft.get_reft_model(model, reft_config)：使用pyreft.get_reft_model()函数，传入预训练模型model和配置reft_config，来获取REFT模型。这个REFT模型将在指定的层上应用REFT技术。
reft_model.set_device("cuda")：设置REFT模型的运行设备为CUDA，即GPU，以加速计算。
reft_model.print_trainable_parameters()：打印REFT模型中可训练参数的数量。这通常用于验证模型配置是否正确，以及了解模型的参数规模。

准备数据集

为微调准备数据集。使用了OpenHermes-2.5数据集的10,000条子集。因为REFT训练器需要数据以特定格式存在，将使用pyreft.make_last_position_supervised_data_module()函数来准备数据。

python 复制代码

 dataset_name = "teknium/OpenHermes-2.5"
from datasets import load_dataset

dataset = load_dataset(dataset_name, split="train")
dataset = dataset.select(range(10_000))

data_module = pyreft.make_last_position_supervised_data_module(
    tokenizer, model, [prompt_no_input_template % row["conversations"][0]["value"] for row in dataset], 
    [row["conversations"][1]["value"] for row in dataset])

这段代码用于准备微调所需的数据集，并使用特定的函数来格式化数据，使其符合REFT（Representation Fine-Tuning）训练器的期望格式。

dataset_name = "teknium/OpenHermes-2.5"：定义了要使用的OpenHermes-2.5数据集的名称。
from datasets import load_dataset：导入datasets库中的load_dataset函数，这个库通常用于加载和处理大型数据集。
dataset = load_dataset(dataset_name, split="train")：使用load_dataset函数加载指定数据集的训练集部分。
dataset = dataset.select(range(10_000))：从加载的数据集中选择前10,000个样本，创建一个新的数据集对象。
data_module = pyreft.make_last_position_supervised_data_module(...)：使用pyreft库中的make_last_position_supervised_data_module函数来创建一个数据模块，这个模块将用于REFT训练。函数的参数包括：
- tokenizer：之前定义的分词器，用于将文本转换为模型可以理解的格式。
- model：之前加载的预训练模型。
- prompt_no_input_template % row["conversations"][0]["value"]：使用之前定义的prompt_no_input_template模板，并将其与数据集中每个样本的第一个对话值进行格式化，生成提示。
- row["conversations"][1]["value"]：直接使用数据集中每个样本的第二个对话值作为目标文本。
列表推导式[prompt_no_input_template % row["conversations"][0]["value"] for row in dataset]和[row["conversations"][1]["value"] for row in dataset]分别生成了两个列表，一个包含格式化后的提示，另一个包含目标文本。

teknium/OpenHermes-2.5数据集

GPT 自回归语言模型架构、数学原理及内幕-简介

基于 Transformer 的 Rasa Internals 解密之 Retrieval Model 剖析-简介

Transformer语言模型架构、数学原理及内幕机制-简介

大模型技术分享

《企业级生成式人工智能LLM大模型技术、算法及案例实战》线上高级研修讲座

复制代码

模块一：Generative AI 原理本质、技术内核及工程实践周期详解
模块二：工业级 Prompting 技术内幕及端到端的基于LLM 的会议助理实战
模块三：三大 Llama 2 模型详解及实战构建安全可靠的智能对话系统
模块四：生产环境下 GenAI/LLMs 的五大核心问题及构建健壮的应用实战
模块五：大模型应用开发技术：Agentic-based 应用技术及案例实战
模块六：LLM 大模型微调及模型 Quantization 技术及案例实战
模块七：大模型高效微调 PEFT 算法、技术、流程及代码实战进阶
模块八：LLM 模型对齐技术、流程及进行文本Toxicity 分析实战
模块九：构建安全的 GenAI/LLMs 核心技术Red Teaming 解密实战
模块十：构建可信赖的企业私有安全大模型Responsible AI 实战

Llama3关键技术深度解析与构建Responsible AI、算法及开发落地实战

1、Llama开源模型家族大模型技术、工具和多模态详解：学员将深入了解Meta Llama 3的创新之处，比如其在语言模型技术上的突破，并学习到如何在Llama 3中构建trust and safety AI。他们将详细了解Llama 3的五大技术分支及工具，以及如何在AWS上实战Llama指令微调的案例。

2、解密Llama 3 Foundation Model模型结构特色技术及代码实现：深入了解Llama 3中的各种技术，比如Tiktokenizer、KV Cache、Grouped Multi-Query Attention等。通过项目二逐行剖析Llama 3的源码，加深对技术的理解。

3、解密Llama 3 Foundation Model模型结构核心技术及代码实现：SwiGLU Activation Function、FeedForward Block、Encoder Block等。通过项目三学习Llama 3的推理及Inferencing代码，加强对技术的实践理解。

4、基于LangGraph on Llama 3构建Responsible AI实战体验：通过项目四在Llama 3上实战基于LangGraph的Responsible AI项目。他们将了解到LangGraph的三大核心组件、运行机制和流程步骤，从而加强对Responsible AI的实践能力。

5、Llama模型家族构建技术构建安全可信赖企业级AI应用内幕详解：深入了解构建安全可靠的企业级AI应用所需的关键技术，比如Code Llama、Llama Guard等。项目五实战构建安全可靠的对话智能项目升级版，加强对安全性的实践理解。

6、Llama模型家族Fine-tuning技术与算法实战：学员将学习Fine-tuning技术与算法，比如Supervised Fine-Tuning(SFT)、Reward Model技术、PPO算法、DPO算法等。项目六动手实现PPO及DPO算法，加强对算法的理解和应用能力。

7、Llama模型家族基于AI反馈的强化学习技术解密：深入学习Llama模型家族基于AI反馈的强化学习技术，比如RLAIF和RLHF。项目七实战基于RLAIF的Constitutional AI。

8、Llama 3中的DPO原理、算法、组件及具体实现及算法进阶：学习Llama 3中结合使用PPO和DPO算法，剖析DPO的原理和工作机制，详细解析DPO中的关键算法组件，并通过综合项目八从零开始动手实现和测试DPO算法，同时课程将解密DPO进阶技术Iterative DPO及IPO算法。

9、Llama模型家族Safety设计与实现：在这个模块中，学员将学习Llama模型家族的Safety设计与实现，比如Safety in Pretraining、Safety Fine-Tuning等。构建安全可靠的GenAI/LLMs项目开发。

10、Llama 3构建可信赖的企业私有安全大模型Responsible AI系统：构建可信赖的企业私有安全大模型Responsible AI系统，掌握Llama 3的Constitutional AI、Red Teaming。

解码Sora架构、技术及应用

一、为何Sora通往AGI道路的里程碑？

1，探索从大规模语言模型(LLM)到大规模视觉模型(LVM)的关键转变，揭示其在实现通用人工智能(AGI)中的作用。

2，展示Visual Data和Text Data结合的成功案例，解析Sora在此过程中扮演的关键角色。

3，详细介绍Sora如何依据文本指令生成具有三维一致性(3D consistency)的视频内容。 4，解析Sora如何根据图像或视频生成高保真内容的技术路径。

5，探讨Sora在不同应用场景中的实践价值及其面临的挑战和局限性。

二、解码Sora架构原理

1，DiT (Diffusion Transformer)架构详解

2，DiT是如何帮助Sora实现Consistent、Realistic、Imaginative视频内容的？

3，探讨为何选用Transformer作为Diffusion的核心网络，而非技术如U-Net。

4，DiT的Patchification原理及流程，揭示其在处理视频和图像数据中的重要性。

5，Conditional Diffusion过程详解，及其在内容生成过程中的作用。

三、解码Sora关键技术解密

1，Sora如何利用Transformer和Diffusion技术理解物体间的互动，及其对模拟复杂互动场景的重要性。

2，为何说Space-time patches是Sora技术的核心，及其对视频生成能力的提升作用。

3，Spacetime latent patches详解，探讨其在视频压缩和生成中的关键角色。

4，Sora Simulator如何利用Space-time patches构建digital和physical世界，及其对模拟真实世界变化的能力。

5，Sora如何实现faithfully按照用户输入文本而生成内容，探讨背后的技术与创新。

6，Sora为何依据abstract concept而不是依据具体的pixels进行内容生成，及其对模型生成质量与多样性的影响。