从0开始学习大模型--Day06--大模型的相关网络架构

云服务器

在平时,我们总能听到诸如用服务器跑数据、模型,或者是搭建服务器之类的话,实际上,它相当于一台算力、内存、运行内存等各个方面都很强大的电脑,只需要我们用自己的电脑通过互联网链接他就能使用它,同时又不需要携带,我们可以通过它存储数据,运行网站或应用,跑模型,处理复杂的计算(渲染视频需要很高的算力)等。

云服务器有很多优势:

1、更强大的CPU,更大的内存;

2、运行时间相比我们用自己电脑会更久,用自己电脑时受限于设计,有时运行久了会消耗,变得卡顿,也会容易过热;

3、数据传输快速且稳定,同时能够自由地选择或更换配置,能够满足由于项目复杂带来的算力需求。

人工智能

人工智能(AI):人工智能是使计算机模拟人类智能行为的科学,包括学习、推理和自我改进;

机器学习(ML):机器学习是人工智能的一个分支,它使计算机能够通过数据和算法自动学习并改进其性能;

深度学习(DL):深度学习是机器学习的一种方法,通过使用复杂的神经网络结构来处理大量数据,使得机器能够执行高级模式识别和预测。

神经网络

神经网络的简单结构

如图,我们用一个简单的网络架构来介绍神经网络的工作流程。

假如我们想设计一个根据光照强度来判断是否开关灯的系统,此时我们设置一个神经网络并分为三层:输入层,隐藏层和输出层。其中,输入层的X代表光照强度数据集,Y是开关灯的状态,0是关灯,1是开灯。而在隐藏层,这里等于我们人类的大脑,也就是处理信息的部分,其中的W和b都是随机数,是我们后续要训练的目标值,我们在将数据输入后,在隐藏层为不同的数据计算对应的Z,并在输出与0.5判断输出开关灯的决策,同时,我们可以把决策值反相作为输入,通过隐藏层的计算输出Y,也就是开关灯的值与原始数据进行对比,这就相当于是一次决策的评估,方便我们训练出正确的W和b值。

常见的神经网络有卷积神经网络(CNN),一般用于图像分类,图像识别,视频分析等领域;循环神经网络(RNN),一般用于处理语言(翻译),自然语言处理(NLP)等领域。

自然语言处理(NLP)

自然语言处理(NLP)是大模型中比较重要的一个概念,其旨在使计算机能够理解、解释和生成人类语言。它结合了计算机科学、语言学和数据科学的元素,用于解决与语言相关的各种问题。NLP的应用包括机器翻译、语音识别、情感分析、文本摘要、聊天机器人等。通过算法和大量的数据训练,NLP模型能够从复杂的语言输入中提取有意义的信息,从而在自动化服务、数据分析、内容生成等多个领域发挥重要作用。

一般在涉及到自然语言处理时,我们用的是Transformer架构,以下是他的基本示意图:

Transformer架构图

结合我们平时使用大模型的使用场景,我们可以简单理解为,左边的sources,是我们当前输入到模型里的内容,通过Embedding,也就是向量化转化为数字(这是因为模型跟人类之间的交流不一样,他们只识别数字),传给Encoder这个编码器,将其加工后传给右边中间的解码器,进而整理之后传给Decoder输出,值得注意的是,右边的Targets是我们在与大模型交流时的上下文和背景,将这些内容也传输给大模型有助于其更好地理解我们想表达的内容。

学习来源于B站教程:【进阶篇】01.AI以及大模型的进阶核心知识点(重要,请反复观看!)_哔哩哔哩_bilibili

相关推荐
jackie_0531 分钟前
WSL2用docker daemon(不用桌面版本的)麻烦吗?
运维·docker·容器
小虾米vivian2 小时前
达梦数据库:同1台服务器如何启动不同版本的DMAP服务
运维·服务器
真的想上岸啊2 小时前
学习STC51单片机22(芯片为STC89C52RCRC)
单片机·嵌入式硬件·学习
木子.李3473 小时前
数据结构-算法学习C++(入门)
数据库·c++·学习·算法
小白写代码hh3 小时前
Git入门到精通:30分钟掌握核心技巧
git·学习
Y3174293 小时前
Python Day36 学习
python·学习·机器学习
求真得真3 小时前
Predixy的docker化
运维·docker·容器
珊珊而川3 小时前
docker不用dockerfile
运维·docker·容器
Y学院3 小时前
Vue 技术文档
vue.js·笔记·学习
星辰生活说4 小时前
理想树图书:以科技赋能教育,开启AI时代自主学习新范式
人工智能·科技·学习