大语言模型中Softmax函数的计算过程及其参数描述

文章目录

概要

**Softmax 作用:**主要用于自注意层,作用是将输出映射成区间在(0,1)的值,并且做了归一化,所有元素的和累加起来等于1。

**Softmax使用场景:**Llama-7B模型中,其在自注意层作为激活函数。

Softmax的定义



注意:这里的公式对输入进行缩放,可以忽略𝛾的值;

相关推荐
简简单单做算法1 小时前
基于mediapipe深度学习和限定半径最近邻分类树算法的人体摔倒检测系统python源码
人工智能·python·深度学习·算法·分类·mediapipe·限定半径最近邻分类树
就决定是你啦!2 小时前
机器学习 第一章 绪论
人工智能·深度学习·机器学习
有个人神神叨叨4 小时前
OpenAI发布的《Addendum to GPT-4o System Card: Native image generation》文件的详尽笔记
人工智能·笔记
林九生4 小时前
【Python】Browser-Use:让 AI 替你掌控浏览器,开启智能自动化新时代!
人工智能·python·自动化
liuyunshengsir5 小时前
AI Agent 实战:搭建个人在线旅游助手
人工智能·旅游
Shawn_Shawn5 小时前
大模型微调介绍
人工智能
TiAmo zhang5 小时前
DeepSeek-R1 模型现已在亚马逊云科技上提供
人工智能·云计算·aws
liruiqiang055 小时前
循环神经网络 - 简单循环网络
人工智能·rnn·深度学习·神经网络·机器学习
Erica_zhase6 小时前
GPT-4o推出的原生图像生成功能升级后有点东西!
人工智能
青花瓷6 小时前
智谱大模型(ChatGLM3)PyCharm的调试指南
人工智能·python·大模型·智谱大模型