DPO微调实战
1.结论
6w数据全参数微调:

- 6w 数据全参数微调 + 1.2w的精标数据(人工标注)

加上dpo 之后,acc 会提升1个百分点。
背景
对用户上传的 image + query 进行业务领域(经济金融、电商零售等)分类。
理论
实操
SWIFT引入了Megatron的并行技术来加速大模型的训练,包括数据并行、张量并行、流水线并行、序列并行,上下文并行,专家并行。支持Qwen3、Qwen3-MoE、Qwen2.5、Llama3、Deepseek-R1等模型的预训练和微调。具体的细节可以参考文档:Megatron-SWIFT训练
模型格式转换
需要将hf格式的文件转换成Megatron格式,使用下面这个脚本:
shell
CUDA_VISIBLE_DEVICES=0 \
swift export \
--model Qwen/Qwen2.5-7B-Instruct \
--to_mcore true \
--torch_dtype bfloat16 \
--output_dir Qwen2.5-7B-Instruct-mcore \
--test_convert_precision true
更多信息可以参考文档:Lora训练_格式转换
训练数据准备
直接使用swift dpo 的数据构造方式:
python
{"messages": [{"role": "system", "content": "【任务背景】你是一位专业的数据标注员,尤其擅长多模态场景的数据标注,你的任务是根据图片内容和问题,对用户问题的所属领域(场景)进行打标,将其精确地归类到以下提供的分类体系中。\n\n【分类体系】(请仔细阅读,并严格遵循):\n- 一级领域: 包含11个,分别是 \"日常生活\", \"旅游出行\", \"文化与艺术\", \"电商与零售\", \"教育与学习\", \"经济金融\", \"技术与工程\", \"医疗健康\", \"泛娱乐\", \"饮食与营养\", \"其他\"。\n- 二级领域: 在每个一级领域下,有更具体的二级领域。\n\n具体的领域如下所示\n1.日常生活\n - 动植物识别与养护:家养/野生动植物、木材的识别;植物健康诊断和健康养护。\n 示例:品种鉴定(\"这是什么猫/花?\"、\"这是什么材质的木头?\");健康诊断和养护(\"叶子是怎么了?\"、\"这种花多久浇一次\",\"这个能不能放鱼缸造景?\")\n - 服饰与穿搭:涉及衣物、鞋履、箱包、配饰(手串/手表/首饰/发饰)以及妆容、发型、面部审美\n 示例:风格解析(\"讲述这款衣服的设计风格\"、\"这属于Blokette风吗?\");穿搭/美妆决策(\"我适合什么发色/发型?\"、\"中性色偏冷适合这个颜色吗?\",\"这个妆造怎么样\")\n - 生活用品与操作:居家及办公场景下的各类数码配件、母婴用品、五金工具、家用电器等(注意和工业设备以及服饰穿搭进行区分)\n 示例:功能/操作(\"这个按钮是干嘛的?\"、\"里面的胶没用完怎么办?\");购物辅助(\"这种电源线该怎么搜索关键词?\"、\"640ml是正品规格吗?\");物品识别(\"朋友从日本带回给宝宝的是什么东西?\");材质鉴定与价值评估(\"这是真毛吗\",\"判断一下这个图片中最左侧这串绿松的品质及大概价格\",\"这个手表是真的吗\",\"是纯棉的吗\")\n - 生活常识:涵盖法律常识、社会规则(包括交通规则)、危险感知及多语言环境\n 示例:安全/合规核验(\"这个商标算侵权吗?\"、\"这是什么语言?\"、\"这个化妆品敏感肌可以用吗\");公共场所/环境识别(\"这是什么店?\",\"从被遮挡住的字母分析是哪所学校?\",\"这个交通标识是啥意思\");生活小妙招(\"这个污渍怎么去掉\",\"怎么收纳啊\")\n - 办公与票据:纸质或电子版发票、快递单、说明书、证件、专业档案、各种数据表格;政务办事的申请流程和指引\n 示例:逻辑校验(\"案卷号和目录号可以同号吗?\",\"这里可以填办公邮箱吗\");信息提取(\"提取这张发票的含税金额\"、\"美国卫衣尺码表核对\")\n - 社交互动与心理:摄影内容分析与评价、社交聊天截图分析、人际互动动机揣摩、内容创作、身材分析等\n 示例:社交建议(\"女朋友大发雷霆怎么回复?\"、\"女生这样问是什么意思?\");摄影内容分析与评价(\"你觉得这是男生还是女生的脚?\",\"能看出几岁吗\",\"拍的怎么样\",\"这张照片构图有问题吗?\",\"这个是AI生成的吗\");内容创作与审美表达(\"这个景色用一段话描述\",\"配个文案\")\n - 家居家装:室内空间布局、家具摆放、硬装/软装搭配、居住环境优化\n 示例:空间评价(\"阳台这么布置合适/安全吗?\"、\"沙发这么放成不成立?\");软装搭配(\"这个地砖配什么颜色的地毯好看?\")\n\n2.经济金融\n - 金融常识与百科:针对图片中出现的金融术语、技术指标、图标符号或专业概念进行解释\n 示例:\"图中圈出来的 MACD 指标中的'金叉'是什么意思?\"\"这里的'夏普比率'代表什么?数值高好还是低好?\"\"解释一下图片里的'商誉减值'对股价会有什么影响?\"\"这个K线图怎么看\"\n - 个股查询与分析:专注于特定股票(个股)的视觉信息解析。包括识别股票名称/代码、分析分时图、K线形态、成交量以及量价关系\n 示例:\"识别一下这只股票的代码是多少?当前的支撑位在哪里?\"\"帮我分析下这个股票的走势\"\n - 持仓与投资分析:用户上传的私人资产配置、持仓截图或交易明细进行风险评估与建议\n 示例:\"分析一下我这几笔操作,我是不是卖早了?\"\"帮我看看这个定投策略,在目前的行情下合理吗?\"\"根据我的持仓,给一下优化建议\"\n - 市场行情与大盘分析:关注财经资讯、宏观市场、行业板块或大盘指数的整体表现。识别指数走势、行业热力图、北向资金流向图、涨跌分布图等全局信息,帮助用户把握市场脉搏\n 示例:\"从图中看,今天市场的热点资金主要流向了哪个板块?\"\"对比图片里的纳斯达克和恒生指数,最近哪个市场更强?\"\"大盘现在处于震荡区间还是已经破位了?\"\"这个新闻对股市有啥影响\"\n - 公司查询与财报分析:专注于上市公司基本面数据的提取、实控人查询、财报解读。\n 示例:\"这家公司的资产负债率是多少?相比去年是上升还是下降了?\"\"这张图里显示这家公司的实际控制人是谁?\"\n - 资产与收益计算:根据用户需求进行盈亏计算、年化折算、复利预估或汇率换算\n 示例:\"帮我计算一下我现在的总浮动盈亏是多少钱?\"\"如果我投入10万,按照图中显示的年化利率,一年后我能拿到多少利息?\"\n - 其它投资标的查询与分析:基金、债券、大宗商品、数字币\n 示例:\"这个基金涉及哪些行业\"\n\n3.教育与学习:\n图片内容为学科知识、练习题、考试题、作文、实验报告、教材页面等,无论其呈现载体是纸质试卷、黑板、电脑屏幕、手机APP 或学习平台界面。\n用户问题的需求包括:解答问题、批改作业、写作辅导、概念解释、题目解析、论文撰写、作文润色、知识问答(古诗词)等。\n - K12教育:涵盖小学、初中、高中阶段的基础学科教育。侧重于语数英、政史地、物化生等学科的作业辅导、试卷批改、绘本互动及教材内容解析。【判定逻辑】:内容涉及基础学科,且难度在高中水平及以下。\n 示例:\"批改作业\"、\"第二题是否正确?\"、\"润色一下作文\"\n - 高等教育:指大学本科、研究生及以上水平的专业化教育。包含高等数学、专业课程(编程、法学、医学等)、学术论文辅助及深度理论研究。【判定逻辑】:知识深度超过高中水平,涉及学术性或高度专业化的领域。\n 示例:\"帮我用C++回答,用return输出\"、"解释一下薛定谔方程"、"分析这篇论文的逻辑"。\n - 职业/资格证书考试:针对面向社会公开的标准化从业准入、能力认证或选拔考试。如:教师证、会计证、电工证、驾照、公务员考试(行测/申论)等。【判定逻辑】:目标是获得社会公认的职业资格或岗位录取。\n 示例:\"我是低压电工刷题者,解释下这个概念\"\n - 企业组织内训:指特定企业内部的规章制度、标准操作规程(SOP)、员工手册或入职培训。具有强烈的内部属性,内容通常基于特定公司的业务场景。【判定逻辑】:内容涉及"XX公司"、"XX部门"、"XX岗位流程",不对外公开。\n 示例:\"这道新员工入职培训的题选啥\"\n - 益智类答题:指不依赖特定学科背景,纯粹以逻辑、空间观察、常识推理为核心的非专业性挑战。主要用于智力训练、娱乐或IQ测试。【判定逻辑】:非学术、非职业相关。只要有基本逻辑能力即可参与,无须特定文凭。\n 示例:\"解一下这个数独\"、"根据线索推理出凶手"\n\n4.技术与工程\n - 界面与错误提示识别:图像是电脑、手机等设备界面提示的非正常运行状态(如报错信息、系统崩溃、无法加载内容等)并且用户需求是对页面报错提示进行解读。\n 示例:\"这个界面显示的错误代码是什么意思?\" \"软件启动时卡在了这一步,哪里出了问题?\" \"为什么我的电脑不能正常开机?\"\n **排除情形**:如果界面上展示的是正常的教育应用或考试系统的界面,并且用户的关注点在于解答题目而非解决技术故障,则应归入教育与学习领域。\n - 软件工具使用引导:对软件工具、数字产品或开发平台的界面、流程和使用方式进行理解与说明。\n 示例:\"这个软件的各个模块是做什么的?\"\"图中软件下一步怎么操作?\"\n - 编程开发与代码:代码与软件开发调试、编译等问题解决等\n 示例:\"如何修改这张图里的代码\"\"分析代码重新输出正确代码\"\"帮我写一串代码\"\n - 硬件与电子元件识别:识别芯片、电阻、接口、连接线等电子硬件组件\n 示例:\"此芯片如何校准?\"、\"确认下M2-2插槽位置\"\n - 机械结构与部件分析:识别机械设备、工具的组成部件、连接方式、运动状态(静态描述)【非电子器件】\n 示例:\"有什么小技巧拆下来?\"、\"钻孔要钻多深?\"\n - 专业设计图纸:技术与工程领域的专业设计图纸相关问题解决,如CAD图纸、数控加工程序、技术图纸解决。\n 示例:\"编辑出数控加工程序\"、\"这个cad2011版的立体图怎么画?\"\n\n5.泛娱乐\n - 新闻与社交媒体图片解读:新闻事件时效性信息、网络热点、梗图(Memes)及表情包\n 示例:\"这个图是什么梗?出自哪里?\"新闻里这个抗议发生的地点是哪里?\"\"这张截图里反映的最新热搜事件是什么?\"\n - 影视与IP百科:电影、电视剧、综艺、动漫、游戏及其背后的IP角色和衍生品(手办、周边)\n 示例:\"这个是哪个电影的片段?\"\"这套盲盒的隐藏款长什么样?\"\"把这段影视截图里的歌词/台词全部写出来。\"\"这是哪款labubu\"\n - 公众人物识别:现实世界的艺人、歌手、运动员、网红、政客、企业家、文人等知名人士的身份鉴定\n 示例:\"照片里的人是谁?\"、\"合照里都有哪些明星?\"\n - 表演艺术:舞蹈、乐器演奏、歌剧、戏剧、舞台、脱口秀表演(不包括传统民俗表演与庆典)\n 示例:\"这是什么舞种?\"、\"视频里这个奇怪的乐器叫什么?\"\"这个京剧角色的脸谱代表什么\"\n - 颜值与外貌分析:围绕人的面部的审美评估、风格建议及趣味互动。包含人脸吸引力分析、真伪(AI)辨析\n 示例:\"颜值打几分\"\"我属于哪一类长相,什么气质\"\"我长得像什么动物?\"\"照片里这个人的颜值看着有点假(AI生成),你觉得呢?\"\"我长得像什么明星/动画人物?\"\"我像xx明星吗?\"\n - 游戏与竞技策略:端游、手游、电竞比赛、棋牌博弈,涉及UI界面解析、关卡攻略、操作水平评估及竞技逻辑推理\n 示例:\"怎么过这关?\"、\"这战绩算有天赋吗?\"\n - 博彩预测与数据:针对体育赛事比分预测、彩票选号、赔率/盘口分析\n 示例:\"根据这两个队伍的过往数据,预测一下最终比分。\"、\"选一注6+1号码\"\n\n6.文化与艺术\n - 文物与艺术品:涵盖文物、古玩、绘画、雕塑、装置艺术等,核心是识别年代、流派、作者、及其创作历史背景(建筑不属于此类别)\n 示例:断代与辨识(\"这个瓷瓶是哪个朝代的?看底纹像是青花瓷吗?\"、\"绘画是哪个流派\",\"建筑是什么风格\");材质分析( \"这尊佛像是什么材质的?是鎏金还是青铜?)艺术鉴赏(\"这幅画是梵高的风格吗?画中表达了什么意象?\");真伪和价值判断(\"这是真的乾隆币吗\"、\"这个有收藏价值吗\")\n - 传统文化与民俗:关注非物质文化遗产、节日庆典、传统服饰、民族仪式、文化符号及其寓意\n 示例:\"(图片是一个打铁花)这是什么表演\"\"(图片是游神)这起源哪\"\"剪纸里面的这个图案是什么寓意\"\n - 书法牌匾:图片涉及的场景包括古建筑与古典园林上的牌匾、老字号商铺的招牌、书房、厅堂内部悬挂的匾额、现代建筑上仿古的书法牌匾、以牌匾形式呈现的石刻/摩崖石刻,也包括:书法条幅/卷轴、普通打印字体的招牌、石碑印章等\n 示例:\"这是什么字体?\"、\"下联怎么读?\"\n - 命理、相术和风水分析:图像内容可能涉及天干、地支、藏干、星宿、神煞、大运等信息,用户问题可能涉及命理、运势、相术、风水、方位、占卜等文化语境下的用语。\n 示例:\"看下我面相,分析下明年的姻缘\"、\"看下这个手相\"、\"灶台坐西朝东好不好\"、\"正屋门开哪个方位?\"、\"根据图片分析下我的运势\"\n\n7.医疗健康\n - 药品与保健品:识别中西药及保健品的名称、品牌、剂型;提取核心信息(如成分、性味归经、功效主治);分析适应症、禁忌症、药物相互作用及配伍禁忌;识别分类(处方药/OTC、中药饮片/成药等)。\n 示例:"吃这个药能喝酒吗?"、"这三种药能同时服用吗?"\n - 医学影像:识别X光、CT、B超、MRI、超声波等影像资料中的解剖结构或病灶迹象。【分类门槛:图片中必须出现原始影像图。若输入为一份图文并茂的报告单(如超声报告、CT报告)】(注:本类仅作信息识别,非医疗诊断)。\n 示例:"这两个片子有问题吗?"、"第五腰椎前缘考虑什么问题?"、"侧弯严重吗?"\n - 身体症状与体征识别:识别通过肉眼可直接观察到的人体外部异常表现,包括但不限于:皮肤及黏膜病变(如皮疹、溃疡、色素沉着、黄疸);组织肿胀、伤口、出血、瘢痕;人体分泌物或排泄物的外观(如尿液颜色、痰液性状、粪便形态、舌苔);身体结构或形态异常(如脊柱弯曲、脱发分级、四肢畸形、头面部不对称、甲状腺肿大、眼球突出等);体型与发育特征评估(如肥胖类型、青春期发育迹象、婴儿囟门状态等)。【分类门槛:图片必须直接拍摄到患处、分泌物或舌象。若输入图像为报告,则不属于此类】。\n 示例:"该用什么药膏涂抹?"、"中医舌诊:舌红苔薄,配合牙痛如何辩证?"、"秃头级别"、"脊椎侧弯吗?"\n - 医疗图表与文档理解:解读化验单、检查报告、病历单、处方笺、心电图等医疗文书中的文字及图表数据。【判定逻辑:以文字/数据报告为主的图文。若报告中附带影像原图,优先归类至"医学影像"】。\n 示例:"白细胞是否偏高?"、"帮我分析这份报告单。"\n - 医疗环境与仪表器械:识别医疗场所(诊室、病房等)、特定医疗设备或用品(心电监护仪、针筒等)、常见医疗器械(角膜塑形镜、血糖试纸、血压计等)\n 示例:"这是什么仪器""这个血压值怎么样?""分析一下各项数据"\n\n8.电商与零售\n - 价格与购买渠道查询:用户希望获得商品的价格,购买渠道等信息\n 示例:\"这个多少钱?\"、\"哪里买得到?\"\n - 电商平台截图:用户给出的图片是电商平台商品详情页、评论区截图\n 示例:\"这款手表是蓝宝石版么\"\"它的配料表是什么\"\n\n9.旅游出行\n - 地标与自然风光:识别著名的建筑物、雕塑、历史遗迹、自然景观(山脉、河流、海滩、森林、公园)等,可能关于其名称、位置、特征或背景\n 示例:\"这是哪?\"、\"这是什么地貌?\"\n - 旅行计划与行程:读取和理解行程安排、日期、时间、地点、活动顺序等信息,涉及地图、交通线路图、列车时刻表、电子/纸质行程单\n 示例:\"我应该选哪里下车最近?\"、\"安排一下重庆旅游计划\"\"我的时间够不够\"\n - 旅行证件:护照、签证、登机牌、出入境卡、火车票、景点门票、酒店预订单等,侧重于读取其中的文字信息(姓名、日期、航班号、座位号、价格)\n 示例:\"申根签证允许停留多少天?\"、\"护照申请到哪一步了?\"\n - 住宿与配套:酒店大堂、客房、餐厅等住宿环境,以及酒店提供的服务设施,可能关于房间布局、设施种类、环境描述\n 示例:\"哪个酒店好\"\"(图片是酒店泳池)这里的水干净吗\"\n\n10.饮食与营养\n - 食材与菜肴:关注自然状态下的原样食材(生鲜、蔬果)以及烹饪完成后的成品菜肴,注意食材所处的环境:超市、生鲜市场、菜市场、厨房、冰箱、餐桌\n 示例:\"帮我挑一个果肉多的榴莲\"、\"这是什么菜?\"\"面包上的果干是什么?\"\"评价一下这道菜。\"\"这条鱼新鲜吗\"\"牛肉的淋巴肉怎么辨别?\"\"这个鸡蛋还能吃吗?\"\n - 半成品与包装食品:半成品与包装食品\t关注经过工业加工的食品、调味品、零食以及超市货架上的包装物,包含人、宠物、牲畜可以入口的所有半成品和包装食品\n 示例:\"这两种品牌哪个更好吃?\"\"这个进口食品背后的中文标签写了什么?\"\n - 烹饪技巧与原理:关注食物在制作过程中的物理/化学变化、专业厨艺工序的视觉特征、以及烹饪结果的成败原因分析\n 示例:\"这只烧鹅上'皮水'了吗?\"\"为什么这道菜里是一颗一颗的结晶?\"\"鸡蛋糕蒸出来不成形,是哪一步做错了吗?\"\"为什么炸出来的丸子颜色发黑?\"\n - 菜单与单据:门处理餐饮场景中的文字载体,包含菜单、外卖单、结账小票、美食类app截图\n 示例:\"菜单上第3个沙拉是什么?\"\"根据这张菜单,推荐几个这家店的招牌菜。\"\n - 食谱与饮食建议:食谱与饮食建议\t关注\"如何吃、怎么搭、是否健康\"的决策辅助\n 示例:关注\"如何吃、怎么搭、是否健康\"的决策辅助\t\"给我搭配一下 Porchetta(意式卷肉)的配料。\"\"用图片里这几种剩下的菜,能做一个什么午餐?\"\"这个热量高吗,吃了会胖吗\"\n\n11.其他:仅当 query与图片内容 无法映射到任何一级领域时,才归入"其他"。\n - 其他\n\n【输出格式】:\n请严格按照以下JSON格式输出字符:\n{\"一级领域\": \"...\", \"二级领域\": \"...\"}\n\n【示例】\n示例输入:\nquery:解读一下这个ct图 [图片]\n图片:如图所示\n\n示例输出:\n{\"一级领域\": \"医疗健康\", \"二级领域\": \"医学影像\"}\n\n【重点】\n(1)请综合图片内容与用户问题,综合判断用户问题所属的意图领域;\n(2)如果用户query无明显意图,请按图像内容分类(如:图片是电商截图,则分到电商与零售领域-电商平台截图;图像内容是动植物,则分到日常生活-动植物识别与养护);\n(3)若询问价格,则必须分至\"电商与零售-价格与购买渠道查询\";\n\n请综合图片内容和用户问题,综合判断用户的意图,并按照分类规则,给出分类结果。"}, {"content": "好好算下<image>", "role": "user"}, {"role": "assistant", "content": "\"{'一级领域': '教育与学习', '二级领域': '企业组织内训'}\""}], "images": ["https://mdn.alipayobjects.com/afts/img/A*P1OFTZtwC1AAAAAAQ5AAAAgAegAAAQ/original?bz=LLM_CHAT"], "rejected_response": "\"{'一级领域': '教育与学习', '二级领域': 'K12教育'}\""}
图片示例如下:

更加具体的可以参考文档: