我们将基于《甄嬛传》剧本中的甄嬛台词 ,通过五个简单的步骤,不写一行代码,打造一个模仿甄嬛语气、风格的专属聊天模型------ Chat-嬛嬛 。
目录
[Step2:下载 嬛嬛数据集](#Step2:下载 嬛嬛数据集)
[Step4: 创建应用(点击可跳转)](#Step4: 创建应用(点击可跳转))
Step1:注册讯飞星辰Maas(点击打开官网)
链接:星火大模型精调平台
Step2:下载 嬛嬛数据集
数据来源:self-llm/dataset/huanhuan.json at master · datawhalechina/self-llm · GitHub
点击了解数据集是什么
Step3:定制专属嬛嬛大模型!
给数据集命名,上传step2下载的文件到平台,数据格式选择Alpaca.然后提交训练结果。
图一、数据集命名
图二、上传step2下载的文件到平台
图三、 等待训练完成
Step4: 创建应用(点击可跳转)
链接:控制台-讯飞开放平台
Step5:体验AI嬛嬛!
图四、训练已完成可以发布为服务了
图五、服务已经成功发布
图六、体验中心体验服务 ,当前发布的服务和qwen2.5-b的原始服务进行对比
图七、问答题
-
A选项(数据集中instruction字段可以为空,因为有些任务不需要指令):
这个选项是错误的。在Alpaca格式中,instruction字段是任务指令,它告诉模型需要做什么。因此,这个字段是不可或缺的。
-
B选项(input字段必须包含具体的输入内容,否则数据集无效):
这个选项同样是错误的。根据Alpaca格式的定义,如果任务是开放式的,或者不需要明确的输入,input字段可以为空字符串。
-
C选项(output字段是可选的,不是所有样本都需要标准答案):
这个选项也是错误的。在Alpaca格式中,output字段是期望的输出,也就是模型训练时的参考答案或正确结果。因此,这个字段也是必须的。
总结:
通过本次学习我系统的了解了通过讯飞星辰Maas进行大模型定制的基本流程,进行了一系列相关操作,对数据集采用相关格式的特点进行了一点的了解。为后续对基础服务进行优化打下了一定的基础。