大语言模型中Softmax函数的计算过程及其参数描述

文章目录

概要

**Softmax 作用:**主要用于自注意层,作用是将输出映射成区间在(0,1)的值,并且做了归一化,所有元素的和累加起来等于1。

**Softmax使用场景:**Llama-7B模型中,其在自注意层作为激活函数。

Softmax的定义



注意:这里的公式对输入进行缩放,可以忽略𝛾的值;

相关推荐
富唯智能14 小时前
移动+协作+视觉:开箱即用的下一代复合机器人如何重塑智能工厂
人工智能·工业机器人·复合机器人
Antonio91515 小时前
【图像处理】图像的基础几何变换
图像处理·人工智能·计算机视觉
新加坡内哥谈技术16 小时前
Perplexity AI 的 RAG 架构全解析:幕后技术详解
人工智能
武子康16 小时前
AI研究-119 DeepSeek-OCR PyTorch FlashAttn 2.7.3 推理与部署 模型规模与资源详细分析
人工智能·深度学习·机器学习·ai·ocr·deepseek·deepseek-ocr
Sirius Wu17 小时前
深入浅出:Tongyi DeepResearch技术解读
人工智能·语言模型·langchain·aigc
忙碌54418 小时前
AI大模型时代下的全栈技术架构:从深度学习到云原生部署实战
人工智能·深度学习·架构
LZ_Keep_Running18 小时前
智能变电巡检:AI检测新突破
人工智能
InfiSight智睿视界18 小时前
AI 技术助力汽车美容行业实现精细化运营管理
大数据·人工智能
没有钱的钱仔19 小时前
机器学习笔记
人工智能·笔记·机器学习
听风吹等浪起19 小时前
基于改进TransUNet的港口船只图像分割系统研究
人工智能·深度学习·cnn·transformer