从0开始学习大模型--Day06--大模型的相关网络架构

云服务器

在平时,我们总能听到诸如用服务器跑数据、模型,或者是搭建服务器之类的话,实际上,它相当于一台算力、内存、运行内存等各个方面都很强大的电脑,只需要我们用自己的电脑通过互联网链接他就能使用它,同时又不需要携带,我们可以通过它存储数据,运行网站或应用,跑模型,处理复杂的计算(渲染视频需要很高的算力)等。

云服务器有很多优势:

1、更强大的CPU,更大的内存;

2、运行时间相比我们用自己电脑会更久,用自己电脑时受限于设计,有时运行久了会消耗,变得卡顿,也会容易过热;

3、数据传输快速且稳定,同时能够自由地选择或更换配置,能够满足由于项目复杂带来的算力需求。

人工智能

人工智能(AI):人工智能是使计算机模拟人类智能行为的科学,包括学习、推理和自我改进;

机器学习(ML):机器学习是人工智能的一个分支,它使计算机能够通过数据和算法自动学习并改进其性能;

深度学习(DL):深度学习是机器学习的一种方法,通过使用复杂的神经网络结构来处理大量数据,使得机器能够执行高级模式识别和预测。

神经网络

神经网络的简单结构

如图,我们用一个简单的网络架构来介绍神经网络的工作流程。

假如我们想设计一个根据光照强度来判断是否开关灯的系统,此时我们设置一个神经网络并分为三层:输入层,隐藏层和输出层。其中,输入层的X代表光照强度数据集,Y是开关灯的状态,0是关灯,1是开灯。而在隐藏层,这里等于我们人类的大脑,也就是处理信息的部分,其中的W和b都是随机数,是我们后续要训练的目标值,我们在将数据输入后,在隐藏层为不同的数据计算对应的Z,并在输出与0.5判断输出开关灯的决策,同时,我们可以把决策值反相作为输入,通过隐藏层的计算输出Y,也就是开关灯的值与原始数据进行对比,这就相当于是一次决策的评估,方便我们训练出正确的W和b值。

常见的神经网络有卷积神经网络(CNN),一般用于图像分类,图像识别,视频分析等领域;循环神经网络(RNN),一般用于处理语言(翻译),自然语言处理(NLP)等领域。

自然语言处理(NLP)

自然语言处理(NLP)是大模型中比较重要的一个概念,其旨在使计算机能够理解、解释和生成人类语言。它结合了计算机科学、语言学和数据科学的元素,用于解决与语言相关的各种问题。NLP的应用包括机器翻译、语音识别、情感分析、文本摘要、聊天机器人等。通过算法和大量的数据训练,NLP模型能够从复杂的语言输入中提取有意义的信息,从而在自动化服务、数据分析、内容生成等多个领域发挥重要作用。

一般在涉及到自然语言处理时,我们用的是Transformer架构,以下是他的基本示意图:

Transformer架构图

结合我们平时使用大模型的使用场景,我们可以简单理解为,左边的sources,是我们当前输入到模型里的内容,通过Embedding,也就是向量化转化为数字(这是因为模型跟人类之间的交流不一样,他们只识别数字),传给Encoder这个编码器,将其加工后传给右边中间的解码器,进而整理之后传给Decoder输出,值得注意的是,右边的Targets是我们在与大模型交流时的上下文和背景,将这些内容也传输给大模型有助于其更好地理解我们想表达的内容。

学习来源于B站教程:【进阶篇】01.AI以及大模型的进阶核心知识点(重要,请反复观看!)_哔哩哔哩_bilibili

相关推荐
SuperW28 分钟前
Linxu实验五——NFS服务器
运维·服务器
promise52430 分钟前
JVM之jcmd命令详解
java·linux·运维·服务器·jvm·bash·jcmd
Bruce_Liuxiaowei43 分钟前
Day 5:Warp高级定制与自动化
运维·warp
溜达的大象1 小时前
docker创建一个centOS容器安装软件(以宝塔为例)的详细步骤
运维·docker·容器
虾球xz1 小时前
游戏引擎学习第271天:生成可行走的点
c++·学习·游戏引擎
果子⌂1 小时前
Linux系统入门第十二章 --Shell编程之正则表达式
linux·运维·服务器
海尔辛1 小时前
学习黑客5 分钟读懂Linux Filesystem Interaction Continued
linux·服务器·学习
学习2年半1 小时前
服务器mysql连接我碰到的错误
运维·服务器·mysql
涛涛6号1 小时前
轻量服务器与宝塔
运维·服务器
wangbaowo1 小时前
MySQL数据库下篇
数据库·经验分享·笔记·学习·mysql·安全