GPT-4o微调SFT及强化学习DPO数据集构建

假设,已经标注的训练数据集df包含了提示词、输入和输出三列。

构建微调SFT的数据集代码如下:

python 复制代码
data = []
for x in df.values:
    prompt = x[1]
    user_content = x[2]
    assistant_content = x[3]
    
    data.append({"messages": [{"role": "system", "content": prompt}, {"role": "user", "content": user_content},{"role": "assistant", "content": assistant_content}]})
data[0]

import json

# 将数据写入.jsonl文件
with open('sft_train.jsonl', 'w') as f:
    for item in data:
        json.dump(item, f)
        f.write('\n')  # 每行一个JSON对象

假设,已经标注的强化学习数据集df包含用户输入、首选输出、次选输出三列。

构建强化学习DPO的数据集代码如下:

python 复制代码
dpo_data = []
for x in sft_df.values:
    user_content = x[1]
    preferred_output = x[2]
    non_preferred_output = x[3]
    dpo_data.append({"input": {"messages": [{"role": "user", "content": user_content}],"tools": [], "parallel_tool_calls": True }, "preferred_output": [{"role": "assistant", "content": preferred_output}], "non_preferred_output": [{"role": "assistant", "content": non_preferred_output}]})
dpo_data[0]

import json
with open('dpo_train.jsonl', 'w') as f:
    for item in dpo_data:
        json.dump(item, f)
        f.write('\n')  # 每行一个JSON对象

注意:强化学习DPO通常在微调SFT的模型上进行。

相关推荐
听吉米讲故事5 小时前
GPT-4o最新图像生成完全指南:10大应用场景与提示词模板
文生图·openai·gpt-4o
在云上(oncloudai)4 天前
DeepSeek-R3、GPT-4o 与 Claude-3.5-Sonnet 全面对比:性能、应用场景与技术解析
claude·aws·gpt-4o·deepseek-r3
探索云原生9 天前
大模型微调实战:通过 LoRA 微调修改模型自我认知
ai·云原生·llm·sft
that's boy10 天前
字节跳动开源 LangManus:不止是 Manus 平替,更是下一代 AI 自动化引擎
运维·人工智能·gpt·自动化·midjourney·gpt-4o·deepseek
that's boy11 天前
解锁Midjourney创作潜能:超详细提示词(Prompts)分类指南
人工智能·chatgpt·midjourney·ai绘画·ai写作·gpt-4o·deepseek
仙人掌_lz14 天前
详解如何从零用 Python复现类似 GPT-4o 的多模态模型
开发语言·python·gpt·llm·gpt-4o·deepseek
猪猪的超超22 天前
从吉卜力漫画到艺术创造:GPT-4o多种风格绘图Prompt大全
人工智能·prompt·文生图·gpt-4o
未来智慧谷24 天前
GPT-4o图像生成功能:技术突破与隐忧并存
openai·gpt-4o
木亦汐丫2 个月前
【大模型系列篇】国产开源大模型DeepSeek-V3技术报告解析
sft·rl·mtp·mla·deepseekmoe·fp8 混合精度训练·dualpipe算法