GPT-4o微调SFT及强化学习DPO数据集构建

假设,已经标注的训练数据集df包含了提示词、输入和输出三列。

构建微调SFT的数据集代码如下:

python 复制代码
data = []
for x in df.values:
    prompt = x[1]
    user_content = x[2]
    assistant_content = x[3]
    
    data.append({"messages": [{"role": "system", "content": prompt}, {"role": "user", "content": user_content},{"role": "assistant", "content": assistant_content}]})
data[0]

import json

# 将数据写入.jsonl文件
with open('sft_train.jsonl', 'w') as f:
    for item in data:
        json.dump(item, f)
        f.write('\n')  # 每行一个JSON对象

假设,已经标注的强化学习数据集df包含用户输入、首选输出、次选输出三列。

构建强化学习DPO的数据集代码如下:

python 复制代码
dpo_data = []
for x in sft_df.values:
    user_content = x[1]
    preferred_output = x[2]
    non_preferred_output = x[3]
    dpo_data.append({"input": {"messages": [{"role": "user", "content": user_content}],"tools": [], "parallel_tool_calls": True }, "preferred_output": [{"role": "assistant", "content": preferred_output}], "non_preferred_output": [{"role": "assistant", "content": non_preferred_output}]})
dpo_data[0]

import json
with open('dpo_train.jsonl', 'w') as f:
    for item in dpo_data:
        json.dump(item, f)
        f.write('\n')  # 每行一个JSON对象

注意:强化学习DPO通常在微调SFT的模型上进行。

相关推荐
猪猪的超超2 小时前
从吉卜力漫画到艺术创造:GPT-4o多种风格绘图Prompt大全
人工智能·prompt·文生图·gpt-4o
未来智慧谷2 天前
GPT-4o图像生成功能:技术突破与隐忧并存
openai·gpt-4o
木亦汐丫1 个月前
【大模型系列篇】国产开源大模型DeepSeek-V3技术报告解析
sft·rl·mtp·mla·deepseekmoe·fp8 混合精度训练·dualpipe算法
冀辉1 个月前
Ubuntu2204下使用NVIDIA GeForce RTX 4090进行DeepSeek-R1-Distill-Llama-8B模型微调
人工智能·sft·大模型微调·unsloth·deepseek蒸馏模型微调
喝不完一杯咖啡1 个月前
【AI时代】可视化训练模型工具LLaMA-Factory安装与使用
人工智能·llm·sft·llama·llama-factory
山顶夕景2 个月前
【LLM】为何DeepSeek 弃用MST却采用Rejection采样
大模型·llm·sft·拒绝采样微调·推理优化
winner88812 个月前
大模型综述一镜到底(全文八万字) ——《Large Language Models: A Survey》
大模型·llm·sft·llama·rlhf·cot·大模型综述
HyperAI超神经2 个月前
超越 GPT-4o!从 HTML 到 Markdown,一键整理复杂网页;AI 对话不再冰冷,大模型对话微调数据集让响应更流畅
人工智能·深度学习·llm·html·数据集·多模态·gpt-4o
探索云原生3 个月前
大模型微调基本概念指北
ai·llm·sft