GPT的实现细节

关于GPT的代码细节,这里梳理了一下:

数据集构造

原始数据集schema:

text 复制代码
input=who is your favorite basketball player?
output=Of course Kobe Bryant!

那么在构造训练集时,根据chunk size构造多个输入:

text 复制代码
input_1=who is your favorite basketball player? Of
input_2=who is your favorite basketball player? Of course
......
input_n-1=who is your favorite basketball player? Of course Kobe Bryant!
input_n=who is your favorite basketball player? Of course Kobe Bryant! <EOS>

由于训练任务是下一个单词预测,所以 x = i n p u t [ : − 1 ] , y = i n p u t [ 1 : ] x=input[:-1], y=input[1:] x=input[:−1],y=input[1:]

loss

x x x是模型可见已知的,需要mask掉不算入loss

python 复制代码
y[:-1] = -1
loss = F.cross_entropy(logits.view(-1, logits.size(-1)), targets.view(-1), ignore_index=-1)

生成

karpathy/minGPT项目中,是直接粗暴地生成固定长度的文本。这样做的问题就是生成的文本无法判断何处阶段。

在构造模型输入的时候,我们就加入了 <EOS> token,来标记文本的结束。那么在推理阶段,如果碰到该token,则结束生成

python 复制代码
if token == "<EOS>":
    break

参考

相关推荐
倔强的石头1063 天前
AiOnly大模型深度测评:调用GPT-5 API+RAG知识库,快速构建智能客服机器人
人工智能·gpt·机器人·aionly
boring_1113 天前
KubeFlow
gpt
智算菩萨3 天前
2025年通用大语言模型前沿进展评测:GPT-5.1、Claude 4.5、文心一言5.0 等全面解析
gpt·语言模型·文心一言
智慧地球(AI·Earth)4 天前
GPT-5.1发布!你的AI更暖更智能!
人工智能·gpt·神经网络·aigc·agi
盼小辉丶6 天前
PyTorch实战(10)——从零开始实现GPT模型
人工智能·pytorch·gpt·深度学习
Constantine376 天前
GPT-5.1已上线!亲测国内可用,保姆级使用教程
gpt
FreeBuf_6 天前
攻击者利用自定义GPT的SSRF漏洞窃取ChatGPT机密数据
gpt·chatgpt
yaocheng的ai分身7 天前
【转载】 OpenAI 推出 GPT-5.1:面向开发者的智能模型
gpt·chatgpt
AI探知-阿薇7 天前
GPT-5.1发布:深入解读与 GPT-5、GPT-4o 在性能与安全基准上的全面对比
gpt·安全
illuspas8 天前
MI50运算卡使用llama.cpp的ROCm后端运行gpt-oss-20b的速度测试
人工智能·gpt·llama