大语言模型---ReLU函数的计算过程及其函数介绍

文章目录

    • [1. 概要](#1. 概要)
    • [2. ReLU定义](#2. ReLU定义)

1. 概要

**ReLU 作用:**主要用于为神经网络引入非线性能力,作用是将输入中的整数保留原值,负数置为 0。 从而在层与层之间引入非线性,使神经网络能够拟合复杂的非线性关系。

**ReLU使用场景:**Llama-7B模型中,其在MLP层(前馈神经网络)作为激活函数。

2. ReLU定义


注意:这里的公式对输入进行缩放,可以忽略𝛾的值;

**公式描述:**首先,将输入 𝑍缩放𝛾倍,然后对其进行四舍五入,左右两边进行Hadamard 乘积,使得两个同维度的矩阵或张量进行逐元素相乘。

相关推荐
武子康5 分钟前
调查研究-186 LangChain 和 LangGraph 的区别:从快速构建 Agent 到生产级工作流编排
人工智能·langchain·llm
武子康39 分钟前
调查研究-185 CodeGraph 调研:给 AI 编程 Agent 一张代码库地图,少一点反复 grep(2026)
人工智能·openai·claude
aqi001 小时前
15天学会AI应用开发(八)使用向量数据库实现RAG功能
人工智能·python·大模型·ai编程·ai应用
混沌福王3 小时前
Electron三端统一架构:运行时Adapter、IPC能力边界与分层设计
人工智能·agent·ai编程
说了很好3 小时前
马尔可夫扩散链+损失函数推导,手把手实现原生Diffusion
人工智能
聂二AI落地内参3 小时前
合同抽取别停在 JSON:标准规则和交易日历才是硬仗
人工智能
冬哥聊AI3 小时前
滴滴Agent岗二面:RAG 系统的 LLM 幻觉怎么治?从两类根源讲到四道防线
人工智能
lyshlc3 小时前
# AI Agent的推迟判定协议:不确定性下的最优策略
人工智能
用户329901675053 小时前
用zod在运行时兜住AI返回的JSON
人工智能