大语言模型---ReLU函数的计算过程及其函数介绍

Guofu_Liao2024-11-25 16:12

文章目录

- [1. 概要](#1. 概要)
- [2. ReLU定义](#2. ReLU定义)

1. 概要

**ReLU 作用：**主要用于为神经网络引入非线性能力，作用是将输入中的整数保留原值，负数置为 0。从而在层与层之间引入非线性，使神经网络能够拟合复杂的非线性关系。

**ReLU使用场景：**Llama-7B模型中，其在MLP层（前馈神经网络）作为激活函数。

2. ReLU定义

注意：这里的公式对输入进行缩放，可以忽略𝛾的值；

**公式描述：**首先，将输入 𝑍缩放𝛾倍，然后对其进行四舍五入，左右两边进行Hadamard 乘积，使得两个同维度的矩阵或张量进行逐元素相乘。

上一篇：微服务02

下一篇：云轴科技ZStack亮相2024 IDC中国生态峰会，共塑AI时代IT生态新格局

热门推荐

01UV安装并设置国内源 02Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 03【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）04KGG转MP3工具|非KGM文件|解密音频 05TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践 06蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 072025最新国内服务器可用docker源仓库地址大全（2025年8月更新）08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09TRAE Rules 实践：为项目配置 6A 工作流 10阿里开源首个图像生成基础模型——Qwen-Image本地部署教程，超强中文渲染能力刷新SOTA！