从0开始学习大模型--Day06--大模型的相关网络架构

云服务器

在平时，我们总能听到诸如用服务器跑数据、模型，或者是搭建服务器之类的话，实际上，它相当于一台算力、内存、运行内存等各个方面都很强大的电脑，只需要我们用自己的电脑通过互联网链接他就能使用它，同时又不需要携带，我们可以通过它存储数据，运行网站或应用，跑模型，处理复杂的计算（渲染视频需要很高的算力）等。

云服务器有很多优势：

1、更强大的CPU，更大的内存；

2、运行时间相比我们用自己电脑会更久，用自己电脑时受限于设计，有时运行久了会消耗，变得卡顿，也会容易过热；

3、数据传输快速且稳定，同时能够自由地选择或更换配置，能够满足由于项目复杂带来的算力需求。

人工智能

人工智能(AI):人工智能是使计算机模拟人类智能行为的科学，包括学习、推理和自我改进；

机器学习(ML):机器学习是人工智能的一个分支，它使计算机能够通过数据和算法自动学习并改进其性能；

深度学习(DL):深度学习是机器学习的一种方法，通过使用复杂的神经网络结构来处理大量数据，使得机器能够执行高级模式识别和预测。

神经网络

神经网络的简单结构

如图，我们用一个简单的网络架构来介绍神经网络的工作流程。

假如我们想设计一个根据光照强度来判断是否开关灯的系统，此时我们设置一个神经网络并分为三层：输入层，隐藏层和输出层。其中，输入层的X代表光照强度数据集，Y是开关灯的状态，0是关灯，1是开灯。而在隐藏层，这里等于我们人类的大脑，也就是处理信息的部分，其中的W和b都是随机数，是我们后续要训练的目标值，我们在将数据输入后，在隐藏层为不同的数据计算对应的Z，并在输出与0.5判断输出开关灯的决策，同时，我们可以把决策值反相作为输入，通过隐藏层的计算输出Y，也就是开关灯的值与原始数据进行对比，这就相当于是一次决策的评估，方便我们训练出正确的W和b值。

常见的神经网络有卷积神经网络(CNN)，一般用于图像分类，图像识别，视频分析等领域；循环神经网络(RNN)，一般用于处理语言（翻译），自然语言处理(NLP)等领域。

自然语言处理（NLP）

自然语言处理(NLP)是大模型中比较重要的一个概念，其旨在使计算机能够理解、解释和生成人类语言。它结合了计算机科学、语言学和数据科学的元素，用于解决与语言相关的各种问题。NLP的应用包括机器翻译、语音识别、情感分析、文本摘要、聊天机器人等。通过算法和大量的数据训练，NLP模型能够从复杂的语言输入中提取有意义的信息，从而在自动化服务、数据分析、内容生成等多个领域发挥重要作用。

一般在涉及到自然语言处理时，我们用的是Transformer架构，以下是他的基本示意图：

Transformer架构图

结合我们平时使用大模型的使用场景，我们可以简单理解为，左边的sources，是我们当前输入到模型里的内容，通过Embedding，也就是向量化转化为数字（这是因为模型跟人类之间的交流不一样，他们只识别数字），传给Encoder这个编码器，将其加工后传给右边中间的解码器，进而整理之后传给Decoder输出，值得注意的是，右边的Targets是我们在与大模型交流时的上下文和背景，将这些内容也传输给大模型有助于其更好地理解我们想表达的内容。

学习来源于B站教程：【进阶篇】01.AI以及大模型的进阶核心知识点（重要，请反复观看！）_哔哩哔哩_bilibili