NLP常见问题

transformer中的attention为什么scaled?-CSDN博客

Transformer模型中的Feed-Forward层的作用_transformer feed-forward解释-CSDN博客

关于ChatGPT:GPT和BERT的差别(易懂版)

Index - 算法工程师笔记

Transformer模型中,decoder的第一个输入是什么? - 知乎

大部分的大模型(LLM)采用左填充(left-padding)的原因 - 知乎

多种Attention之间的对比(上) - 知乎

ChatGLM-6B 实践分享 - 知乎

重磅!第二代ChatGLM发布!清华大学THUDM发布ChatGLM2-6B:更快更准,更低成本更长输入! - 知乎

transformer 为什么使用 layer normalization,而不是其他的归一化方法? - 知乎

CRF模型详解-CSDN博客

非凸函数上,随机梯度下降能否收敛?网友热议:能,但有条件,且比凸函数收敛更难 - 知乎

分类必然交叉熵,回归无脑MSE?未必 - 知乎

分类问题可以使用MSE(均方误差)作为损失函数吗_分类问题可以用mse吗-CSDN博客

[分析] ROPE的不同实现:llama&palm - 知乎

LORA微调系列(一):LORA和它的基本原理 - 知乎

大模型升级与设计之道:ChatGLM、LLAMA、Baichuan及LLM结构解析-CSDN博客

ChatGPT/InstructGPT详解 - 知乎

从零开始了解transformer的机制|第四章:FFN层的作用-CSDN博客

大模型思维链(Chain-of-Thought)技术原理 - 知乎

强化学习AC、A2C、A3C算法原理与实现! - 知乎

大模型微调(finetune)方法总结-LoRA,Adapter,Prefix-tuning,P-tuning,Prompt-tuning - 知乎

Gradient Checkpointing(梯度检查点) - 知乎

[NLP] LLM---<训练中文LLama2(二)>扩充LLama2词表构建中文tokenization_斗破苍芎原始数据预处理-CSDN博客

BERT为何使用学习的position embedding而非正弦position encoding? - 知乎

相关推荐
Elastic 中国社区官方博客40 分钟前
使用 Discord 和 Elastic Agent Builder A2A 构建游戏社区支持机器人
人工智能·elasticsearch·游戏·搜索引擎·ai·机器人·全文检索
2501_933329551 小时前
企业级AI舆情中台架构实践:Infoseek系统如何实现亿级数据实时监测与智能处置?
人工智能·架构
阿杰学AI1 小时前
AI核心知识70——大语言模型之Context Engineering(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·数据处理·上下文工程
赛博鲁迅2 小时前
物理AI元年:AI走出屏幕进入现实,88API为机器人装上“最强大脑“
人工智能·机器人
管牛牛2 小时前
图像的卷积操作
人工智能·深度学习·计算机视觉
云卓SKYDROID2 小时前
无人机航线辅助模块技术解析
人工智能·无人机·高科技·云卓科技
琅琊榜首20203 小时前
AI生成脑洞付费短篇小说:从灵感触发到内容落地
大数据·人工智能
imbackneverdie3 小时前
近年来,我一直在用的科研工具
人工智能·自然语言处理·aigc·论文·ai写作·学术·ai工具
roman_日积跬步-终至千里3 小时前
【计算机视觉-作业1】从图像到向量:kNN数据预处理完整流程
人工智能·计算机视觉