NLP常见问题

transformer中的attention为什么scaled?-CSDN博客

Transformer模型中的Feed-Forward层的作用_transformer feed-forward解释-CSDN博客

关于ChatGPT:GPT和BERT的差别(易懂版)

Index - 算法工程师笔记

Transformer模型中,decoder的第一个输入是什么? - 知乎

大部分的大模型(LLM)采用左填充(left-padding)的原因 - 知乎

多种Attention之间的对比(上) - 知乎

ChatGLM-6B 实践分享 - 知乎

重磅!第二代ChatGLM发布!清华大学THUDM发布ChatGLM2-6B:更快更准,更低成本更长输入! - 知乎

transformer 为什么使用 layer normalization,而不是其他的归一化方法? - 知乎

CRF模型详解-CSDN博客

非凸函数上,随机梯度下降能否收敛?网友热议:能,但有条件,且比凸函数收敛更难 - 知乎

分类必然交叉熵,回归无脑MSE?未必 - 知乎

分类问题可以使用MSE(均方误差)作为损失函数吗_分类问题可以用mse吗-CSDN博客

分析 ROPE的不同实现:llama&palm - 知乎

LORA微调系列(一):LORA和它的基本原理 - 知乎

大模型升级与设计之道:ChatGLM、LLAMA、Baichuan及LLM结构解析-CSDN博客

ChatGPT/InstructGPT详解 - 知乎

从零开始了解transformer的机制|第四章:FFN层的作用-CSDN博客

大模型思维链(Chain-of-Thought)技术原理 - 知乎

强化学习AC、A2C、A3C算法原理与实现! - 知乎

大模型微调(finetune)方法总结-LoRA,Adapter,Prefix-tuning,P-tuning,Prompt-tuning - 知乎

Gradient Checkpointing(梯度检查点) - 知乎

NLP LLM---<训练中文LLama2(二)>扩充LLama2词表构建中文tokenization_斗破苍芎原始数据预处理-CSDN博客

BERT为何使用学习的position embedding而非正弦position encoding? - 知乎

相关推荐
冬奇Lab1 小时前
Workflow 系列(02):设计范式——四层架构、三种 Context 传递模式与确认门设计
人工智能·agent·工作流引擎
冬奇Lab1 小时前
每日一个开源项目(第145篇):Trellis - 把项目记忆、规范和任务上下文持久化进代码仓库
人工智能·开源·资讯
有道AI情报局1 小时前
Harness即产品
人工智能·agent
罗西的思考2 小时前
机器人 / 强化学习】HIL-SERL:人类在环驱动的具身智能进化框架
人工智能·算法·机器学习
IT_陈寒3 小时前
SpringBoot自动配置的坑,我的API突然就404了
前端·人工智能·后端
笃行3504 小时前
从零到上线:用 EdgeOne Makers + CodeBuddy 搭一个「对账核对员」AI Agent
人工智能
用户6856326208694 小时前
Claude Code 乱猜字段名?我给它写了一个"数据库查询约束 Skill"
人工智能
你_好4 小时前
# 给你的产品嵌入一个「会操作界面的 AI 助手」
人工智能
ShallWeL4 小时前
【机器学习】(3)—— 线性回归:梯度下降
人工智能·机器学习
陈广亮4 小时前
Prompt、Context、Harness、Agentic:LLM 应用四层嵌套结构,搞清自己卡在哪一层
人工智能