NLP常见问题

transformer中的attention为什么scaled?-CSDN博客

Transformer模型中的Feed-Forward层的作用_transformer feed-forward解释-CSDN博客

关于ChatGPT:GPT和BERT的差别(易懂版)

Index - 算法工程师笔记

Transformer模型中,decoder的第一个输入是什么? - 知乎

大部分的大模型(LLM)采用左填充(left-padding)的原因 - 知乎

多种Attention之间的对比(上) - 知乎

ChatGLM-6B 实践分享 - 知乎

重磅!第二代ChatGLM发布!清华大学THUDM发布ChatGLM2-6B:更快更准,更低成本更长输入! - 知乎

transformer 为什么使用 layer normalization,而不是其他的归一化方法? - 知乎

CRF模型详解-CSDN博客

非凸函数上,随机梯度下降能否收敛?网友热议:能,但有条件,且比凸函数收敛更难 - 知乎

分类必然交叉熵,回归无脑MSE?未必 - 知乎

分类问题可以使用MSE(均方误差)作为损失函数吗_分类问题可以用mse吗-CSDN博客

[分析] ROPE的不同实现:llama&palm - 知乎

LORA微调系列(一):LORA和它的基本原理 - 知乎

大模型升级与设计之道:ChatGLM、LLAMA、Baichuan及LLM结构解析-CSDN博客

ChatGPT/InstructGPT详解 - 知乎

从零开始了解transformer的机制|第四章:FFN层的作用-CSDN博客

大模型思维链(Chain-of-Thought)技术原理 - 知乎

强化学习AC、A2C、A3C算法原理与实现! - 知乎

大模型微调(finetune)方法总结-LoRA,Adapter,Prefix-tuning,P-tuning,Prompt-tuning - 知乎

Gradient Checkpointing(梯度检查点) - 知乎

[NLP] LLM---<训练中文LLama2(二)>扩充LLama2词表构建中文tokenization_斗破苍芎原始数据预处理-CSDN博客

BERT为何使用学习的position embedding而非正弦position encoding? - 知乎

相关推荐
数据饕餮1 小时前
Pytorch深度学习框架实战教程-番外篇05-Pytorch全连接层概念定义、工作原理和作用
人工智能·pytorch·深度学习
FIT2CLOUD飞致云1 小时前
MaxKB+合合信息TextIn:通过API实现PDF扫描件的文档审核
人工智能·开源
算家计算1 小时前
OpenAI 全新开源模型 GPT-OSS-20B本地部署教程:16GB显存跑透128K上下文
人工智能·开源·openai
墨尘游子1 小时前
2- Python 网络爬虫 — 如何精准提取网页数据?XPath、Beautiful Soup、pyquery 与 parsel 实战指南
人工智能·网络爬虫·知识图谱·机器翻译
lll482332 小时前
数字图像处理4
人工智能·计算机视觉
大海的John2 小时前
FinQ4Cn: 基于 MCP 协议的中国 A 股量化分析
人工智能
霍格沃兹测试开发学社测试人社区2 小时前
Dify入门指南(2):5 分钟部署 Dify:云服务 vs 本地 Docker
人工智能·低代码
西猫雷婶2 小时前
scikit-learn/sklearn学习|岭回归解读
开发语言·人工智能·机器学习·支持向量机·回归·scikit-learn·sklearn
AI导航猿3 小时前
能和MJ掰手腕?免费开源的Krea Dev,我用日常场景实测了一整天|AI导航猿
人工智能
CoderLiu3 小时前
AI提示词工程优化指南:8个技巧,释放大语言模型的全部潜力
前端·人工智能·ai编程