大语言模型中Softmax函数的计算过程及其参数描述

文章目录

概要

**Softmax 作用:**主要用于自注意层,作用是将输出映射成区间在(0,1)的值,并且做了归一化,所有元素的和累加起来等于1。

**Softmax使用场景:**Llama-7B模型中,其在自注意层作为激活函数。

Softmax的定义



注意:这里的公式对输入进行缩放,可以忽略𝛾的值;

相关推荐
love530love2 分钟前
【笔记】Windows 下载并安装 ChromeDriver
人工智能·windows·笔记·python·深度学习
昨日之日200621 分钟前
SoloSpeech - 高质量语音处理模型,一键提取指定说话人音频并提升提取音频清晰度和质量 本地一键整合包下载
人工智能·音视频
仙人掌_lz1 小时前
优化 Transformer 模型:基于知识蒸馏、量化技术及 ONNX
人工智能·深度学习·ai·语言模型·自然语言处理·llm·transformer
pen-ai1 小时前
【深度学习】12. VIT与GPT 模型与语言生成:从 GPT-1 到 GPT4
人工智能·gpt·深度学习
新智元1 小时前
Fellou 2.0 震撼发布:你的专属贾维斯,开启 AI 批量化生产新时代
人工智能·openai
大写-凌祁1 小时前
GLIDE论文阅读笔记与DDPM(Diffusion model)的原理推导
论文阅读·人工智能·笔记·python·深度学习·机器学习·计算机视觉
TAICHIFEI2 小时前
KITTI数据集(计算机视觉和自动驾驶领域)
图像处理·人工智能·深度学习·计算机视觉
小Mie不吃饭2 小时前
SpringBoot接入Kimi实践记录轻松上手
人工智能·spring
科技小E2 小时前
嵌入式SDK技术EasyRTC音视频实时通话助力即时通信社交/教育等多场景创新应用
人工智能·音视频
ARM2NCWU2 小时前
高通SoC阵列服务器
人工智能