大语言模型---ReLU函数的计算过程及其函数介绍

文章目录

    • [1. 概要](#1. 概要)
    • [2. ReLU定义](#2. ReLU定义)

1. 概要

**ReLU 作用:**主要用于为神经网络引入非线性能力,作用是将输入中的整数保留原值,负数置为 0。 从而在层与层之间引入非线性,使神经网络能够拟合复杂的非线性关系。

**ReLU使用场景:**Llama-7B模型中,其在MLP层(前馈神经网络)作为激活函数。

2. ReLU定义


注意:这里的公式对输入进行缩放,可以忽略𝛾的值;

**公式描述:**首先,将输入 𝑍缩放𝛾倍,然后对其进行四舍五入,左右两边进行Hadamard 乘积,使得两个同维度的矩阵或张量进行逐元素相乘。

相关推荐
23遇见9 小时前
AI视角下的 CANN 仓库架构全解析:高效计算的核心
人工智能
有趣的杰克9 小时前
开源|macOS 菜单栏 AI 启动器 GroAsk:⌥Space 一键直达 ChatGPT / Claude / Gemini
人工智能·macos·chatgpt
yumgpkpm9 小时前
预测:2026年大数据软件+AI大模型的发展趋势
大数据·人工智能·算法·zookeeper·kafka·开源·cloudera
星爷AG I9 小时前
11-2 距离知觉(AGI基础理论)
人工智能·agi
算法狗29 小时前
大模型面试题:在混合精度训练中如何选择合适的精度
人工智能·深度学习·机器学习·语言模型
晚霞的不甘9 小时前
Flutter for OpenHarmony实现 RSA 加密:从数学原理到可视化演示
人工智能·flutter·计算机视觉·开源·视觉检测
图学习小组9 小时前
Degradation-Aware Feature Perturbation for All-in-One Image Restoration
人工智能·深度学习·计算机视觉
迎仔9 小时前
05-AI与网络安全
人工智能·安全·web安全
Aric_Jones9 小时前
后台文章发布页添加 AI 自动生成摘要功能
人工智能
9呀9 小时前
【ros2】OccupancyGrid消息里的resolution
人工智能·机器人