NLP常见问题

青盏2024-01-02 8:11

transformer中的attention为什么scaled?-CSDN博客

Transformer模型中的Feed-Forward层的作用_transformer feed-forward解释-CSDN博客

关于ChatGPT：GPT和BERT的差别（易懂版）

Index - 算法工程师笔记

Transformer模型中，decoder的第一个输入是什么？ - 知乎

大部分的大模型(LLM)采用左填充(left-padding)的原因 - 知乎

多种Attention之间的对比(上） - 知乎

ChatGLM-6B 实践分享 - 知乎

重磅！第二代ChatGLM发布！清华大学THUDM发布ChatGLM2-6B：更快更准，更低成本更长输入！ - 知乎

transformer 为什么使用 layer normalization，而不是其他的归一化方法？ - 知乎

CRF模型详解-CSDN博客

非凸函数上，随机梯度下降能否收敛？网友热议：能，但有条件，且比凸函数收敛更难 - 知乎

分类必然交叉熵，回归无脑MSE？未必 - 知乎

分类问题可以使用MSE(均方误差)作为损失函数吗_分类问题可以用mse吗-CSDN博客

[分析] ROPE的不同实现：llama&palm - 知乎

LORA微调系列(一)：LORA和它的基本原理 - 知乎

大模型升级与设计之道：ChatGLM、LLAMA、Baichuan及LLM结构解析-CSDN博客

ChatGPT/InstructGPT详解 - 知乎

从零开始了解transformer的机制|第四章：FFN层的作用-CSDN博客

大模型思维链（Chain-of-Thought）技术原理 - 知乎

强化学习AC、A2C、A3C算法原理与实现！ - 知乎

大模型微调（finetune）方法总结-LoRA,Adapter,Prefix-tuning，P-tuning，Prompt-tuning - 知乎

Gradient Checkpointing(梯度检查点) - 知乎

[NLP] LLM---＜训练中文LLama2(二)＞扩充LLama2词表构建中文tokenization_斗破苍芎原始数据预处理-CSDN博客

BERT为何使用学习的position embedding而非正弦position encoding? - 知乎

上一篇：github鉴权失败

下一篇：C/C++面向对象（OOP）编程-回调函数详解（回调函数、C/C++异步回调、函数指针）

热门推荐

01两千字总结：Codex 国内如何安装和使用的教程，以及如何设置中文回答 02GitHub 镜像站点 03UV安装并设置国内源 04智能库存管理的需求预测模型：从业务痛点到落地代码的完整实践 05Linux下V2Ray安装配置指南 06GitLab 零基础入门指南：从安装到项目管理全流程 0746个Nano-banana 精选提示词，持续更新中 08jdk21下载、安装（Windows、Linux、macOS）09一文了解国产算子编程语言 TileLang，TileLang 对国产开源生态的影响与启示 10KGG转MP3工具|非KGM文件|解密音频