大语言模型中Softmax函数的计算过程及其参数描述

文章目录

概要

**Softmax 作用:**主要用于自注意层,作用是将输出映射成区间在(0,1)的值,并且做了归一化,所有元素的和累加起来等于1。

**Softmax使用场景:**Llama-7B模型中,其在自注意层作为激活函数。

Softmax的定义



注意:这里的公式对输入进行缩放,可以忽略𝛾的值;

相关推荐
迎仔5 分钟前
06-AI开发进阶
人工智能
陈天伟教授6 分钟前
人工智能应用- 语言处理:01.机器翻译:人类语言的特点
人工智能·自然语言处理·机器翻译
Codebee7 分钟前
OoderAgent 相比主流Agent框架的五大核心独特优势
人工智能
home_4988 分钟前
与gemini关于神的对话
人工智能·科幻·神学
代码改善世界8 分钟前
CANN深度解构:中国AI系统软件的原创性突破与架构创新
大数据·人工智能·架构
Fairy要carry10 分钟前
面试-Torch函数
人工智能
aiguangyuan24 分钟前
基于BERT的中文命名实体识别实战解析
人工智能·python·nlp
量子-Alex27 分钟前
【大模型RLHF】Training language models to follow instructions with human feedback
人工智能·语言模型·自然语言处理
晚霞的不甘32 分钟前
Flutter for OpenHarmony 实现计算几何:Graham Scan 凸包算法的可视化演示
人工智能·算法·flutter·架构·开源·音视频
陈天伟教授41 分钟前
人工智能应用- 语言处理:04.统计机器翻译
人工智能·自然语言处理·机器翻译