NLP常见问题

transformer中的attention为什么scaled?-CSDN博客

Transformer模型中的Feed-Forward层的作用_transformer feed-forward解释-CSDN博客

关于ChatGPT:GPT和BERT的差别(易懂版)

Index - 算法工程师笔记

Transformer模型中,decoder的第一个输入是什么? - 知乎

大部分的大模型(LLM)采用左填充(left-padding)的原因 - 知乎

多种Attention之间的对比(上) - 知乎

ChatGLM-6B 实践分享 - 知乎

重磅!第二代ChatGLM发布!清华大学THUDM发布ChatGLM2-6B:更快更准,更低成本更长输入! - 知乎

transformer 为什么使用 layer normalization,而不是其他的归一化方法? - 知乎

CRF模型详解-CSDN博客

非凸函数上,随机梯度下降能否收敛?网友热议:能,但有条件,且比凸函数收敛更难 - 知乎

分类必然交叉熵,回归无脑MSE?未必 - 知乎

分类问题可以使用MSE(均方误差)作为损失函数吗_分类问题可以用mse吗-CSDN博客

分析 ROPE的不同实现:llama&palm - 知乎

LORA微调系列(一):LORA和它的基本原理 - 知乎

大模型升级与设计之道:ChatGLM、LLAMA、Baichuan及LLM结构解析-CSDN博客

ChatGPT/InstructGPT详解 - 知乎

从零开始了解transformer的机制|第四章:FFN层的作用-CSDN博客

大模型思维链(Chain-of-Thought)技术原理 - 知乎

强化学习AC、A2C、A3C算法原理与实现! - 知乎

大模型微调(finetune)方法总结-LoRA,Adapter,Prefix-tuning,P-tuning,Prompt-tuning - 知乎

Gradient Checkpointing(梯度检查点) - 知乎

NLP LLM---<训练中文LLama2(二)>扩充LLama2词表构建中文tokenization_斗破苍芎原始数据预处理-CSDN博客

BERT为何使用学习的position embedding而非正弦position encoding? - 知乎

相关推荐
Samooyou1 分钟前
RAG项目案例--02在线检索&过滤流水线
人工智能·python·ai·全文检索·检索
动能小子ohhh8 分钟前
DocForge平台的设计与开发--文件上传接口的实现
开发语言·人工智能·python·langchain·ocr·fastapi
朴马丁20 分钟前
预制菜的“数字厨房”:PLM如何支撑菜品标准化与供应链高效协同?
大数据·人工智能·食品行业·流程行业plm
小沈同学呀26 分钟前
SpringAI+MCPServer实战-StreamableHTTP协议打造企业级AI工具服务
人工智能·微服务架构·springai·mcpserver·javaai·streamablehttp
net3m3330 分钟前
一阶软件低通滤波器算法
人工智能·算法
武汉唯众智创35 分钟前
边缘端部署 AI 心理分析:自研边缘主机跑通人脸 + 语音双模态推理,不用云端算力详解
人工智能·ai心理健康·校园心理健康·多模态推理·人脸情绪识别·语音情感分析·心理健康信息化平台
IT_陈寒40 分钟前
Python的线程池把我坑惨了,原来异步不是万能的
前端·人工智能·后端
水木流年追梦1 小时前
大模型入门-大模型优化方法12-YaRN 长文本外推技术
人工智能·分布式·算法·正则表达式·prompt
Litluecat1 小时前
2026年6月6日科技热点新闻
人工智能·科技·热点·每日
小旭95271 小时前
Spring AI Alibaba 从入门到实战:一站式掌握企业级 AI 应用开发
java·人工智能·spring