Datawhale AI冬令营(第一期)task1--零基础定制你的专属大模型

我们将基于《甄嬛传》剧本中的甄嬛台词 ,通过五个简单的步骤,不写一行代码,打造一个模仿甄嬛语气、风格的专属聊天模型------ Chat-嬛嬛

目录

Step1:注册讯飞星辰Maas(点击打开官网)

[Step2:下载 嬛嬛数据集](#Step2:下载 嬛嬛数据集)

Step3:定制专属嬛嬛大模型!

[Step4: 创建应用(点击可跳转)](#Step4: 创建应用(点击可跳转))

Step5:体验AI嬛嬛!

总结


Step1:注册讯飞星辰Maas(点击打开官网)

链接:星火大模型精调平台

Step2:下载 嬛嬛数据集

数据来源:self-llm/dataset/huanhuan.json at master · datawhalechina/self-llm · GitHub

点击了解数据集是什么

Step3:定制专属嬛嬛大模型!

给数据集命名,上传step2下载的文件到平台,数据格式选择Alpaca.然后提交训练结果。

图一、数据集命名

图二、上传step2下载的文件到平台

图三、 等待训练完成

Step4: 创建应用(点击可跳转)

链接:控制台-讯飞开放平台

Step5:体验AI嬛嬛!

图四、训练已完成可以发布为服务了

图五、服务已经成功发布

图六、体验中心体验服务 ,当前发布的服务和qwen2.5-b的原始服务进行对比

图七、问答题


  • A选项(数据集中instruction字段可以为空,因为有些任务不需要指令):

    这个选项是错误的。在Alpaca格式中,instruction字段是任务指令,它告诉模型需要做什么。因此,这个字段是不可或缺的。

  • B选项(input字段必须包含具体的输入内容,否则数据集无效):

    这个选项同样是错误的。根据Alpaca格式的定义,如果任务是开放式的,或者不需要明确的输入,input字段可以为空字符串。

  • C选项(output字段是可选的,不是所有样本都需要标准答案):

    这个选项也是错误的。在Alpaca格式中,output字段是期望的输出,也就是模型训练时的参考答案或正确结果。因此,这个字段也是必须的。

总结:

通过本次学习我系统的了解了通过讯飞星辰Maas进行大模型定制的基本流程,进行了一系列相关操作,对数据集采用相关格式的特点进行了一点的了解。为后续对基础服务进行优化打下了一定的基础。

相关推荐
Msshu1233 小时前
PD快充诱骗协议芯片XSP25支持PD+QC+FCP+SCP+AFC协议支持通过串口读取充电器功率信息
人工智能
一RTOS一5 小时前
东土科技连投三家核心企业 发力具身机器人领域
人工智能·科技·机器人·具身智能·鸿道实时操作系统·国产嵌入式操作系统选型
ACP广源盛139246256736 小时前
(ACP广源盛)GSV1175---- MIPI/LVDS 转 Type-C/DisplayPort 1.2 转换器产品说明及功能分享
人工智能·音视频
胡耀超6 小时前
隐私计算技术全景:从联邦学习到可信执行环境的实战指南—数据安全——隐私计算 联邦学习 多方安全计算 可信执行环境 差分隐私
人工智能·安全·数据安全·tee·联邦学习·差分隐私·隐私计算
停停的茶8 小时前
深度学习(目标检测)
人工智能·深度学习·目标检测
Y200309168 小时前
基于 CIFAR10 数据集的卷积神经网络(CNN)模型训练与集成学习
人工智能·cnn·集成学习
老兵发新帖8 小时前
主流神经网络快速应用指南
人工智能·深度学习·神经网络
AI量化投资实验室9 小时前
15年122倍,年化43.58%,回撤才20%,Optuna机器学习多目标调参backtrader,附python代码
人工智能·python·机器学习
java_logo9 小时前
vllm-openai Docker 部署手册
运维·人工智能·docker·ai·容器
倔强青铜三9 小时前
苦练Python第67天:光速读取任意行,linecache模块解锁文件处理新姿势
人工智能·python·面试