从零开始实现大语言模型

RuizhiHe2 个月前
人工智能·chatgpt·llm·大语言模型·deepseek·从零开始实现大语言模型
从零开始实现大语言模型(十六):加载开源大语言模型参数预训练大语言模型的难点不在于算法,而在于数据和算力,绝大多数企业和机构都没有预训练大语言模型的算力资源。在工业界的大语言模型应用实践中,通常会使用领域数据微调开源大语言模型参数,以构建领域大语言模型。
RuizhiHe2 个月前
人工智能·chatgpt·llm·大语言模型·deepseek·从零开始实现大语言模型
从零开始实现大语言模型(十五):并行计算与分布式机器学习并行计算与分布式机器学习是一种使用多机多卡加速大规模深度神经网络训练过程,以减少训练时间的方法。在工业界的训练大语言模型实践中,通常会使用并行计算与分布式机器学习方法来减少训练大语言模型所需的钟表时间。
RuizhiHe4 个月前
人工智能·chatgpt·llm·大语言模型·deepseek·从零开始实现大语言模型
从零开始实现大语言模型(十四):高阶训练技巧预训练大语言模型的流程与训练普通神经深度网络模型本质上并没有任何不同。可以使用深度学习实践中已经被证明非常有效的高阶训练技巧,优化大语言模型预训练流程,使大语言模型预训练效率更高,训练过程更稳定。
RuizhiHe4 个月前
人工智能·chatgpt·llm·大语言模型·deepseek·从零开始实现大语言模型
从零开始实现大语言模型(十三):预训练大语言模型GPTModel使用梯度下降算法通过下一个token预测任务预训练大语言模型GPTModel,前向传播流程每次会输入一个batch的长度均为context_len的训练样本,执行 batch_size × context_len \text{batch\_size}\times\text{context\_len} batch_size×context_len次下一个token预测任务,共预测输出 batch_size × context_len \text{batch\_size}\times\text{context