云服务器
在平时,我们总能听到诸如用服务器跑数据、模型,或者是搭建服务器之类的话,实际上,它相当于一台算力、内存、运行内存等各个方面都很强大的电脑,只需要我们用自己的电脑通过互联网链接他就能使用它,同时又不需要携带,我们可以通过它存储数据,运行网站或应用,跑模型,处理复杂的计算(渲染视频需要很高的算力)等。
云服务器有很多优势:
1、更强大的CPU,更大的内存;
2、运行时间相比我们用自己电脑会更久,用自己电脑时受限于设计,有时运行久了会消耗,变得卡顿,也会容易过热;
3、数据传输快速且稳定,同时能够自由地选择或更换配置,能够满足由于项目复杂带来的算力需求。
人工智能
人工智能(AI):人工智能是使计算机模拟人类智能行为的科学,包括学习、推理和自我改进;
机器学习(ML):机器学习是人工智能的一个分支,它使计算机能够通过数据和算法自动学习并改进其性能;
深度学习(DL):深度学习是机器学习的一种方法,通过使用复杂的神经网络结构来处理大量数据,使得机器能够执行高级模式识别和预测。
神经网络

神经网络的简单结构
如图,我们用一个简单的网络架构来介绍神经网络的工作流程。
假如我们想设计一个根据光照强度来判断是否开关灯的系统,此时我们设置一个神经网络并分为三层:输入层,隐藏层和输出层。其中,输入层的X代表光照强度数据集,Y是开关灯的状态,0是关灯,1是开灯。而在隐藏层,这里等于我们人类的大脑,也就是处理信息的部分,其中的W和b都是随机数,是我们后续要训练的目标值,我们在将数据输入后,在隐藏层为不同的数据计算对应的Z,并在输出与0.5判断输出开关灯的决策,同时,我们可以把决策值反相作为输入,通过隐藏层的计算输出Y,也就是开关灯的值与原始数据进行对比,这就相当于是一次决策的评估,方便我们训练出正确的W和b值。
常见的神经网络有卷积神经网络(CNN),一般用于图像分类,图像识别,视频分析等领域;循环神经网络(RNN),一般用于处理语言(翻译),自然语言处理(NLP)等领域。
自然语言处理(NLP)
自然语言处理(NLP)是大模型中比较重要的一个概念,其旨在使计算机能够理解、解释和生成人类语言。它结合了计算机科学、语言学和数据科学的元素,用于解决与语言相关的各种问题。NLP的应用包括机器翻译、语音识别、情感分析、文本摘要、聊天机器人等。通过算法和大量的数据训练,NLP模型能够从复杂的语言输入中提取有意义的信息,从而在自动化服务、数据分析、内容生成等多个领域发挥重要作用。
一般在涉及到自然语言处理时,我们用的是Transformer架构,以下是他的基本示意图:

Transformer架构图
结合我们平时使用大模型的使用场景,我们可以简单理解为,左边的sources,是我们当前输入到模型里的内容,通过Embedding,也就是向量化转化为数字(这是因为模型跟人类之间的交流不一样,他们只识别数字),传给Encoder这个编码器,将其加工后传给右边中间的解码器,进而整理之后传给Decoder输出,值得注意的是,右边的Targets是我们在与大模型交流时的上下文和背景,将这些内容也传输给大模型有助于其更好地理解我们想表达的内容。