技术栈

从零开始实现大语言模型

RuizhiHe
2 个月前
人工智能·chatgpt·llm·大语言模型·deepseek·从零开始实现大语言模型
从零开始实现大语言模型(十四):高阶训练技巧预训练大语言模型的流程与训练普通神经深度网络模型本质上并没有任何不同。可以使用深度学习实践中已经被证明非常有效的高阶训练技巧,优化大语言模型预训练流程,使大语言模型预训练效率更高,训练过程更稳定。
RuizhiHe
2 个月前
人工智能·chatgpt·llm·大语言模型·deepseek·从零开始实现大语言模型
从零开始实现大语言模型(十三):预训练大语言模型GPTModel使用梯度下降算法通过下一个token预测任务预训练大语言模型GPTModel,前向传播流程每次会输入一个batch的长度均为context_len的训练样本,执行 batch_size × context_len \text{batch\_size}\times\text{context\_len} batch_size×context_len次下一个token预测任务,共预测输出 batch_size × context_len \text{batch\_size}\times\text{context