大语言模型---ReLU函数的计算过程及其函数介绍

文章目录

    • [1. 概要](#1. 概要)
    • [2. ReLU定义](#2. ReLU定义)

1. 概要

**ReLU 作用:**主要用于为神经网络引入非线性能力,作用是将输入中的整数保留原值,负数置为 0。 从而在层与层之间引入非线性,使神经网络能够拟合复杂的非线性关系。

**ReLU使用场景:**Llama-7B模型中,其在MLP层(前馈神经网络)作为激活函数。

2. ReLU定义


注意:这里的公式对输入进行缩放,可以忽略𝛾的值;

**公式描述:**首先,将输入 𝑍缩放𝛾倍,然后对其进行四舍五入,左右两边进行Hadamard 乘积,使得两个同维度的矩阵或张量进行逐元素相乘。

相关推荐
乾元2 分钟前
如何把 CCIE / HCIE 的实验案例改造成 AI 驱动的工程项目——从“实验室能力”到“可交付系统”的完整迁移路径
大数据·运维·网络·人工智能·深度学习·安全·机器学习
GZKPeng3 分钟前
pytorch +cuda成功安装后, torch.cuda.is_available 是False
人工智能·pytorch·python
QBoson6 分钟前
量子机器学习用于药物发现:系统综述
人工智能·机器学习·量子计算
DatGuy6 分钟前
Week 32: 深度学习补遗:Agent的认知架构、记忆系统与高阶规划
人工智能·深度学习
A尘埃7 分钟前
OpenCV常用方法介绍
人工智能·opencv·计算机视觉
海天一色y8 分钟前
基于Resnet50预训练模型实现CIFAR-10数据集的分类任务
人工智能·分类·数据挖掘
xiaobaishuoAI10 分钟前
后端工程化实战指南:从规范到自动化,打造高效协作体系
java·大数据·运维·人工智能·maven·devops·geo
dazzle13 分钟前
计算机视觉处理(OpenCV基础教学(二十一):模板匹配技术详解)
人工智能·opencv·计算机视觉
TTGGGFF13 分钟前
【零基础教程】从零部署 NewBie-image-Exp0.1:避开所有源码坑点
人工智能·多模态·图片生成
小明_GLC13 分钟前
LangGraph
人工智能