GPT的实现细节

关于GPT的代码细节,这里梳理了一下:

数据集构造

原始数据集schema:

text 复制代码
input=who is your favorite basketball player?
output=Of course Kobe Bryant!

那么在构造训练集时,根据chunk size构造多个输入:

text 复制代码
input_1=who is your favorite basketball player? Of
input_2=who is your favorite basketball player? Of course
......
input_n-1=who is your favorite basketball player? Of course Kobe Bryant!
input_n=who is your favorite basketball player? Of course Kobe Bryant! <EOS>

由于训练任务是下一个单词预测,所以 x = i n p u t [ : − 1 ] , y = i n p u t [ 1 : ] x=input[:-1], y=input[1:] x=input[:−1],y=input[1:]

loss

x x x是模型可见已知的,需要mask掉不算入loss

python 复制代码
y[:-1] = -1
loss = F.cross_entropy(logits.view(-1, logits.size(-1)), targets.view(-1), ignore_index=-1)

生成

karpathy/minGPT项目中,是直接粗暴地生成固定长度的文本。这样做的问题就是生成的文本无法判断何处阶段。

在构造模型输入的时候,我们就加入了 <EOS> token,来标记文本的结束。那么在推理阶段,如果碰到该token,则结束生成

python 复制代码
if token == "<EOS>":
    break

参考

相关推荐
EQ-雪梨蛋花汤2 小时前
【OpenAI】GPT-5.5发布!从“会说话”走向“会干活”(运算速度更快、逻辑更准,消耗Token更少)
人工智能·gpt
guslegend3 小时前
AI生图第3节:gpt-image-2的提示词反解析与Json结构化生图
人工智能·gpt·json
ai大模型中转api测评5 小时前
开发者接入实战:GPT-5.5 API 深度调优、推理策略与工程化降本指南
大数据·人工智能·gpt
AI木马人6 小时前
2.【多模型接入架构】如何同时接入GPT、Gemini、Claude并统一管理?(完整实现方案)
人工智能·gpt·深度学习·神经网络·自然语言处理
薛定猫AI6 小时前
【深度解析】GPT 5.5 类 Agent 模型的工程能力:从多步骤规划、Token 效率到 AI 编码工作流落地
人工智能·gpt
一铭111997 小时前
gpt-claude-gemini 超级大模型安装使用教程
java·python·gpt·ai编程·claude·gemini
ofoxcoding10 小时前
2026 年大模型 API 实测天梯榜:DeepSeek v4、GPT-5、Claude 4.6、Gemini 3 谁值得接?
gpt·ai
easyllm10 小时前
GPT-5.5 全系上架 NoneLinear
gpt·openai·ai编程·智能体·大模型api·新模型上架·gpt5.5
guslegend11 小时前
AI生图第2节:python对接gpt-image-2模型API生图
开发语言·python·gpt
叶子Talk21 小时前
GPT-Image-2正式发布:文字渲染99%,Image Arena三项第一,AI图像生成彻底变天了
人工智能·gpt·计算机视觉·ai·openai·图像生成·gpt-image-2