GPT-4o微调SFT及强化学习DPO数据集构建

假设,已经标注的训练数据集df包含了提示词、输入和输出三列。

构建微调SFT的数据集代码如下:

python 复制代码
data = []
for x in df.values:
    prompt = x[1]
    user_content = x[2]
    assistant_content = x[3]
    
    data.append({"messages": [{"role": "system", "content": prompt}, {"role": "user", "content": user_content},{"role": "assistant", "content": assistant_content}]})
data[0]

import json

# 将数据写入.jsonl文件
with open('sft_train.jsonl', 'w') as f:
    for item in data:
        json.dump(item, f)
        f.write('\n')  # 每行一个JSON对象

假设,已经标注的强化学习数据集df包含用户输入、首选输出、次选输出三列。

构建强化学习DPO的数据集代码如下:

python 复制代码
dpo_data = []
for x in sft_df.values:
    user_content = x[1]
    preferred_output = x[2]
    non_preferred_output = x[3]
    dpo_data.append({"input": {"messages": [{"role": "user", "content": user_content}],"tools": [], "parallel_tool_calls": True }, "preferred_output": [{"role": "assistant", "content": preferred_output}], "non_preferred_output": [{"role": "assistant", "content": non_preferred_output}]})
dpo_data[0]

import json
with open('dpo_train.jsonl', 'w') as f:
    for item in dpo_data:
        json.dump(item, f)
        f.write('\n')  # 每行一个JSON对象

注意:强化学习DPO通常在微调SFT的模型上进行。

相关推荐
山顶夕景15 天前
【LLM】为何DeepSeek 弃用MST却采用Rejection采样
大模型·llm·sft·拒绝采样微调·推理优化
winner888116 天前
大模型综述一镜到底(全文八万字) ——《Large Language Models: A Survey》
大模型·llm·sft·llama·rlhf·cot·大模型综述
HyperAI超神经1 个月前
超越 GPT-4o!从 HTML 到 Markdown,一键整理复杂网页;AI 对话不再冰冷,大模型对话微调数据集让响应更流畅
人工智能·深度学习·llm·html·数据集·多模态·gpt-4o
探索云原生1 个月前
大模型微调基本概念指北
ai·llm·sft
真·skysys2 个月前
[COLM 2024] V-STaR: Training Verifiers for Self-Taught Reasoners
llm·dpo·star·v-star·colm
风翔2 个月前
使用 Streamlit +gpt-4o实现有界面的图片内容分析
python·大模型·openai·streamlit·图像分析·gpt-4o
袁袁袁袁满3 个月前
体验免费开箱即用的AI工具:Blackbox.AI
人工智能·gpt·深度学习·chatgpt·大模型·gpt-4o·blackbox.ai
SpikeKing3 个月前
LLM - 使用 LLaMA-Factory 微调大模型 Qwen2-VL SFT(LoRA) 图像数据集 教程 (2)
人工智能·lora·llm·sft·多模态大模型·llama-factory·qwen2-vl
野指针小李3 个月前
LLaMA-Factory学习笔记(1)——采用LORA对大模型进行SFT并采用vLLM部署的全流程
lora·sft·vllm·llama-factory