Datawhale AI冬令营（第一期）task1--零基础定制你的专属大模型

qq_262498112024-12-10 11:08

我们将基于《甄嬛传》剧本中的甄嬛台词，通过五个简单的步骤，不写一行代码，打造一个模仿甄嬛语气、风格的专属聊天模型------ Chat-嬛嬛 。

[Step2：下载嬛嬛数据集](#Step2：下载嬛嬛数据集)

[Step4: 创建应用（点击可跳转）](#Step4: 创建应用（点击可跳转）)

点击了解数据集是什么

给数据集命名，上传step2下载的文件到平台，数据格式选择Alpaca.然后提交训练结果。

图一、数据集命名

图二、上传step2下载的文件到平台

图三、等待训练完成

图四、训练已完成可以发布为服务了

图五、服务已经成功发布

图六、体验中心体验服务，当前发布的服务和qwen2.5-b的原始服务进行对比

图七、问答题

A选项（数据集中instruction字段可以为空，因为有些任务不需要指令）：

这个选项是错误的。在Alpaca格式中，instruction字段是任务指令，它告诉模型需要做什么。因此，这个字段是不可或缺的。
B选项（input字段必须包含具体的输入内容，否则数据集无效）：

这个选项同样是错误的。根据Alpaca格式的定义，如果任务是开放式的，或者不需要明确的输入，input字段可以为空字符串。
C选项（output字段是可选的，不是所有样本都需要标准答案）：

这个选项也是错误的。在Alpaca格式中，output字段是期望的输出，也就是模型训练时的参考答案或正确结果。因此，这个字段也是必须的。

通过本次学习我系统的了解了通过讯飞星辰Maas进行大模型定制的基本流程，进行了一系列相关操作，对数据集采用相关格式的特点进行了一点的了解。为后续对基础服务进行优化打下了一定的基础。