【NLP高频面题 - LLM架构篇】LLM对Transformer都有哪些优化?

【NLP高频面题 - LLM架构篇】LLM对Transformer都有哪些优化?

⚠︎ 重要性:★★★ 💯


NLP Github 项目:


目前主流的大模型架构都是基于LLaMa架构的改造,LLaMa(Large Language Model Meta AI)是由Meta AI开发的一种大语言模型,其核心架构是基于Transformer模型,这是一种由多层自注意力机制和前馈神经网络组成的深度学习结构。

具体来说,LLaMa模型主要由Attention和MLP层堆叠而成,并采用了前置层归一化、RMSNorm归一化函数、SwiGLU激活函数、分组查询注意力机制和旋转位置编码等技术进行改进。

LLaMa模型具有多种参数规模版本,包括7B、13B、33B和65B等多种不同的参数量,这是目前语言领域领先模型中的主流架构。


NLP 大模型高频面题汇总

NLP基础篇
【NLP 面试宝典 之 模型分类】 必须要会的高频面题
【NLP 面试宝典 之 神经网络】 必须要会的高频面题
【NLP 面试宝典 之 主动学习】 必须要会的高频面题
【NLP 面试宝典 之 超参数优化】 必须要会的高频面题
【NLP 面试宝典 之 正则化】 必须要会的高频面题
【NLP 面试宝典 之 过拟合】 必须要会的高频面题
【NLP 面试宝典 之 Dropout】 必须要会的高频面题
【NLP 面试宝典 之 EarlyStopping】 必须要会的高频面题
【NLP 面试宝典 之 标签平滑】 必须要会的高频面题
【NLP 面试宝典 之 Warm up 】 必须要会的高频面题
【NLP 面试宝典 之 置信学习】 必须要会的高频面题
【NLP 面试宝典 之 伪标签】 必须要会的高频面题
【NLP 面试宝典 之 类别不均衡问题】 必须要会的高频面题
【NLP 面试宝典 之 交叉验证】 必须要会的高频面题
【NLP 面试宝典 之 词嵌入】 必须要会的高频面题
【NLP 面试宝典 之 One-Hot】 必须要会的高频面题
...
BERT 模型面
【NLP 面试宝典 之 BERT模型】 必须要会的高频面题
【NLP 面试宝典 之 BERT变体】 必须要会的高频面题
【NLP 面试宝典 之 BERT应用】 必须要会的高频面题
...
LLMs 微调面
【NLP 面试宝典 之 LoRA微调】 必须要会的高频面题
【NLP 面试宝典 之 Prompt】 必须要会的高频面题
【NLP 面试宝典 之 提示学习微调】 必须要会的高频面题
【NLP 面试宝典 之 PEFT微调】 必须要会的高频面题
【NLP 面试宝典 之 Chain-of-Thought微调】 必须要会的高频面题
...
相关推荐
MediaTea几秒前
AI 术语通俗词典:全连接层
人工智能
深度学习lover1 分钟前
<数据集>yolo 电线杆识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·电线杆识别
DevSecOps选型指南2 分钟前
紧急AI安全情报 | 热门AI训练框架Pytorch Lightning遭受窃密蠕虫后门投毒
人工智能·安全·数字供应链安全
阳明山水5 分钟前
LightGBM调优降MAPE至19%关键策略
人工智能·机器学习·微信·微信公众平台·微信开放平台
云朵观自在5 分钟前
企业媒体宣发为何选择JHMS?——一家策略导向的媒体传讯服务商
大数据·人工智能·经验分享·媒体·jhms
学习论之费曼学习法6 分钟前
AutoGen框架详解:微软Multi-Agent开发利器
人工智能·microsoft
Lee川6 分钟前
MCP(Model Context Protocol)深度解析:从面试概念到代码实现
人工智能·面试
Maddie_Mo2 小时前
Unity 联动 Trae AI 项目开发基础教学
人工智能·unity·游戏引擎
光锥智能2 小时前
Google 与百度同步布局智能体:AI 竞争进入全栈能力比拼阶段
人工智能·百度
一点一木8 小时前
深度体验TRAE SOLO移动端7天:作为独立开发者,我把工作流揣进了兜里
前端·人工智能·trae