AIGC学习笔记—LLM(前言)

大语言模型本身我不是很了解,但是掌握一些基础的知识点,由于要准备某个公司的二面,所以浅学一下这个技术,也是边摸索边学习......

首先,我先简单的解释一下大模型,大模型是指具有大规模参数和复杂计算结构的机器学习模型,通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数。其设计目的是提高模型的表达能力和预测性能,能够处理更加复杂的任务和数据。大模型在各种领域都有广泛的应用,包括自然语言处理、计算机视觉、语音识别和推荐系统等。通过训练海量数据,大模型可以学习复杂的模式和特征,具有更强大的泛化能力,从而对未见过的数据做出准确的预测。

ChatGPT 对大模型的解释更为通俗易懂,展现出类似人类的归纳和思考能力:大模型本质上是一个使用海量数据训练而成的深度神经网络模型,其巨大的数据和参数规模实现了智能的涌现,展现出类似人类的智能。

大模型和小模型的区别

小模型通常指参数较少、层数较浅的模型,具有轻量级、高效率、易于部署等优点,适用于数据量较小、计算资源有限的场景,例如移动端应用、嵌入式设备和物联网等。而大模型则参数较多、层数较深,具有更强的表达能力和更高的准确度,但也需要更多的计算资源和时间来训练和推理,适用于数据量较大、计算资源充足的场景,例如云端计算和高性能计算等。

当模型的训练数据和参数不断扩大,达到一定临界规模后,模型表现出一些未能预测的、更复杂的能力和特性,能够从原始训练数据中自动学习并发现新的、更高层次的特征和模式,这种能力被称为"涌现能力"。具备涌现能力的机器学习模型被认为是独立意义上的大模型,这也是其与小模型的最大区别。

大模型相关概念

  • 大模型(Large Model, Foundation Model):具有大量参数和复杂结构的机器学习模型,能够处理海量数据、完成各种复杂任务,如自然语言处理、计算机视觉和语音识别等。
  • 超大模型:大模型的一个子集,参数量远超过一般大模型。
  • 大语言模型(Large Language Model):具有大规模参数和计算能力的自然语言处理模型,例如OpenAI的GPT-3。通过大量数据和参数进行训练,以生成人类类似的文本或回答自然语言的问题。
  • GPT(Generative Pre-trained Transformer):基于Transformer架构的语言模型,用于生成自然语言文本并处理各种自然语言处理任务,如文本生成、翻译和摘要等。
  • ChatGPT:专注于对话和交互式对话的模型,经过特定训练,以更好地处理多轮对话和上下文理解,设计用于提供流畅、连贯和有趣的对话体验。

大模型的特点

  1. 巨大的规模:大模型包含数十亿个参数,模型大小可以达到数百GB甚至更大,具有强大的表达能力和学习能力。
  2. 涌现能力:当模型的训练数据突破一定规模,模型会突然涌现出之前小模型所没有的、意料之外的复杂能力和特性,展现出类似人类的思维和智能。
  3. 更好的性能和泛化能力:大模型通常具有更强的学习能力和泛化能力,能够在各种任务上表现出色,包括自然语言处理、图像识别和语音识别等。
  4. 多任务学习:大模型可以同时学习多种不同的NLP任务,如机器翻译、文本摘要和问答系统,从而学习到更广泛和泛化的语言理解能力。
  5. 大数据训练:大模型需要海量数据来训练,通常在TB以上甚至PB级别的数据集。
  6. 强大的计算资源:训练大模型通常需要数百甚至上千个GPU,以及大量的时间,通常在几周到几个月。
  7. 迁移学习和预训练:大模型可以通过在大规模数据上进行预训练,然后在特定任务上进行微调,从而提高模型在新任务上的性能。
  8. 自监督学习:大模型可以通过自监督学习在大规模未标记数据上进行训练,减少对标记数据的依赖,提高模型的效能。
  9. 领域知识融合:大模型可以从多个领域的数据中学习知识,并在不同领域中进行应用,促进跨领域的创新。
  10. 自动化和效率:大模型可以自动化许多复杂的任务,提高工作效率,如自动编程、自动翻译和自动摘要。
相关推荐
丰锋ff14 小时前
英一2016年真题学习笔记
笔记·学习
摇滚侠14 小时前
Spring Boot3零基础教程,Lambda 表达式与函数式接口,笔记95
java·spring boot·笔记
新子y14 小时前
【小白笔记】稀疏数组 (Sparse Array) 在计算机科学中的存储优化问题
笔记
Lynnxiaowen14 小时前
今天我们学习Linux架构keepalived实现LVS代理双击热备
linux·学习·架构·云计算
摇滚侠14 小时前
Spring Boot3零基础教程,Lambda 表达式的使用,笔记96
spring boot·笔记
charlie11451419116 小时前
HTML 理论系统笔记2
前端·笔记·学习·html·基础·1024程序员节·原生
井队Tell16 小时前
打造高清3D虚拟世界|零基础学习Unity HDRP高清渲染管线(第十天)
学习·3d·unity
Elias不吃糖16 小时前
Linux 环境适应 Day 1 全面笔记
linux·c++·笔记
爱奥尼欧16 小时前
【Linux笔记】网络部分——传输层协议TCP(1)
linux·运维·网络·笔记·tcp/ip·1024程序员节
Lester_110116 小时前
嵌入式学习笔记 - 用泰勒公式解决 tanh函数
笔记·学习·算法