分阶段训练金融大模型


预训练:获得知识
设计数据清洗系统,进行数据切片,并行处理

高频算子
有点像导入小说软件的那个过滤条件诶

训练数据配比
根据实际情况调整数据配比

指令微调


微调测评

价值观对齐
通过奖励模型 对认可回答打高分,不认可回答打低分:
收集语言、安全、金融行业偏好的高质量提示词,通过预训练好的sft模型生成问答对,并人工标注选择偏好回答,然后交给大模型
提升模型下限



设计数据清洗系统,进行数据切片,并行处理

有点像导入小说软件的那个过滤条件诶

根据实际情况调整数据配比




通过奖励模型 对认可回答打高分,不认可回答打低分:
收集语言、安全、金融行业偏好的高质量提示词,通过预训练好的sft模型生成问答对,并人工标注选择偏好回答,然后交给大模型
