大语言模型中Softmax函数的计算过程及其参数描述

文章目录

概要

**Softmax 作用:**主要用于自注意层,作用是将输出映射成区间在(0,1)的值,并且做了归一化,所有元素的和累加起来等于1。

**Softmax使用场景:**Llama-7B模型中,其在自注意层作为激活函数。

Softmax的定义



注意:这里的公式对输入进行缩放,可以忽略𝛾的值;

相关推荐
风象南4 小时前
普通人用AI加持赚到的第一个100块
人工智能·后端
牛奶5 小时前
2026年大模型怎么选?前端人实用对比
前端·人工智能·ai编程
牛奶5 小时前
前端人为什么要学AI?
前端·人工智能·ai编程
罗西的思考8 小时前
AI Agent框架探秘:拆解 OpenHands(10)--- Runtime
人工智能·算法·机器学习
冬奇Lab8 小时前
OpenClaw 源码精读(2):Channel & Routing——一条消息如何找到它的 Agent?
人工智能·开源·源码阅读
冬奇Lab8 小时前
一天一个开源项目(第38篇):Claude Code Telegram - 用 Telegram 远程用 Claude Code,随时随地聊项目
人工智能·开源·资讯
格砸10 小时前
从入门到辞职|从ChatGPT到OpenClaw,跟上智能时代的进化
前端·人工智能·后端
可观测性用观测云10 小时前
可观测性 4.0:教系统如何思考
人工智能
sunny86510 小时前
Claude Code 跨会话上下文恢复:从 8 次纠正到 0 次的工程实践
人工智能·开源·github
小笼包包仔10 小时前
OpenClaw 多Agent软件开发最佳实践指南
人工智能