大语言模型---ReLU函数的计算过程及其函数介绍

文章目录

    • [1. 概要](#1. 概要)
    • [2. ReLU定义](#2. ReLU定义)

1. 概要

**ReLU 作用:**主要用于为神经网络引入非线性能力,作用是将输入中的整数保留原值,负数置为 0。 从而在层与层之间引入非线性,使神经网络能够拟合复杂的非线性关系。

**ReLU使用场景:**Llama-7B模型中,其在MLP层(前馈神经网络)作为激活函数。

2. ReLU定义


注意:这里的公式对输入进行缩放,可以忽略𝛾的值;

**公式描述:**首先,将输入 𝑍缩放𝛾倍,然后对其进行四舍五入,左右两边进行Hadamard 乘积,使得两个同维度的矩阵或张量进行逐元素相乘。

相关推荐
LokiSan12 分钟前
从社交媒体到元宇宙:Facebook未来发展新方向
人工智能·ai·vr·媒体·facebook
静能生慧17 分钟前
大模型-微调与对齐-非强化学习的对齐方法
人工智能·深度学习·机器学习·大模型
AI浩38 分钟前
ShuffleNet:一种为移动设备设计的极致高效的卷积神经网络
人工智能·神经网络·cnn
爱吃土豆的程序员1 小时前
深入理解 prompt提示词 原理及使用技巧
人工智能·深度学习·机器学习·prompt
__如果1 小时前
论文精读--The Llama 3 Herd of Models
人工智能·llama
Power20246661 小时前
NLP论文速读(MPO)|通过混合偏好优化提高多模态大型语言模型的推理能力
人工智能·深度学习·语言模型·自然语言处理·自动化·nlp
shengjk11 小时前
从零开发操作系统-聊一下GDT 和 IDT
人工智能·后端·计算机组成原理
Yimuzhizi1 小时前
《企业网络安全架构与实战指南:从蓝队防御到零信任网络部署》
网络·人工智能·安全·web安全·搜索引擎·网络安全·架构
宋一诺331 小时前
机器学习—迁移学习:使用其他任务中的数据
人工智能·机器学习·迁移学习
泰迪智能科技012 小时前
高校企业数据挖掘平台推荐
人工智能·数据挖掘