大模型基础

大模型基础

大模型基础

通常指的是大规模语言模型。它们是近年来人工智能领域最核心的突破,也是你正在对话的"我"这类系统的技术基础。它主要指基于深度学习、通过海量数据训练、包含巨大参数量(通常在十亿级别以上)的通用神经网络模型。

人工智能(AI)的目标是让机器模仿或超越人类的智能。人工智能是一个庞大的学科,以下是几个最核心、最成熟的子领域:

1. 人工智能

人工智能是一个广泛涉及计算机科学、数据分析、统计学、机器工程、语言学、神经科学、哲学和心理学等多个学科的领域。

2. 机器学习

机器学习可以分为监督学习,无监督学习与强化学习

  • 监督学习:给标注好的数据,学习映射关系。用于分类、回归。
  • 无监督学习:给无标注数据,自己发现隐藏结构(如聚类、降维)。
  • 强化学习:在环境中试错,通过奖励信号学习策略。如AlphaGo、自动驾驶决策。

3 深度学习

深度学习是机器学习的一个分支,主要使用神经网络模型(由多个隐藏层组成)对数据进行学习和表示。

4. 生产式人工智能 AIGC

生成式人工智能又是深度学习中快速增长的子集,它们使用了大模型提供支持,在大量原始、未标记的数据基础上对深度学习模型进行预训练,使得机器能够"理解"语言甚至图像,并能够根据需要自动生成内容。

大模型使用

把你平时的搜索框,变成一个能理解你意图、能处理文件、能帮你创作的智能助手。你不用管它怎么做到的,只要清晰地告诉它"你想要什么"就行了。

大模型训练

第一阶段:预训练

目的是让模型掌握语言的基本规律和世界知识。比如:教一个孩子认字、读书、理解世界,成本最高。

这个阶段的成果是基础模型:它已经有了极强的语言理解和生成能力,知识储备丰富,但它不会对话,也不知道如何遵循指令。它只是一个知识渊博但有点原始的文本续写机器。

第二阶段:监督微调 SFT

目的模仿人类的对话范例,教它如何与人进行"有用"的对话。在这个阶段我们会学习到专业知识,比如金融、法律等领域,我们的头脑会更专注于特定领域。对于大模型来说,在这个阶段它可以学习各种人类的对话语料,甚至是非常专业的垂直领域知识,在监督微调过程之后,它可以按照人类的意图去回答专业领域的问题。

这时候的模型已经可以按照人类的意图去完成基本的对话功能了,但是模型的回答有时候可能并不符合人类的偏好,它可能会输出一些涉黄、涉政、涉暴或者种族歧视等言论,这时候我们就需要对模型进行RLHF(基于人类反馈的强化学习)。

第三阶段:对齐微调 RLHF

经过前两步,模型已经能听懂人话并回答问题。但它可能还会输出有害的、有偏见的或虚假的信息。第三步就是要把它调教成一个有用、诚实、无害的好助手。

最主流的方法是 RLHF,它会针对同一问题进行多次回答,人类会对这些回答打分,大模型会在此阶段学习到如何输出分数最高的回答,使得回答更符合人类的偏好。

大模型特点与分类

大模型特点

  • 规模和参数量大:百亿到万亿参数,遵循规模法则;
  • 适应性和灵活性强:一个模型通过提示完成多任务;
  • 广泛数据集的预训练:在海量互联网数据上学习;
  • 计算资源需求大:训练和推理都需大量GPU资源;

大模型分类

一、大语言模型LLM

专注自然语言处理(NLP),基于Transformer架构和海量文本训练。能捕捉语法、语义与语境,用于生成、问答、翻译等任务。

二、多模态模型 (计算机视觉模型、音频处理模型)

能同时处理文本、图像、音频、视频等多种数据,并在不同模态间建立关联。核心能力是跨模态理解、推理与生成。

大模型的工作流

从原始需求到最终答案的一整套处理链条。根据使用场景的复杂程度。

分词话与词表映射

分词化(Tokenization)是自然语言处理(NLP)中的重要概念,它是将段落和句子分割成更小的分词(token)的过程。因为大模型不认识完整的句子,需要先把文本切割成更小的Token

常见的分词粒度:

  • 字符粒度:按单个字切分,是中文最直接的分词方法。例子:"我"、"爱"、"人"、"工"、"智"、"能"
  • 词粒度:按完整单词切分,适用于英语。例子:"我"、"爱"、"人工智能"
  • 子词粒度:常用组合成词,罕见字拆开。例子:"我"、"爱"、"人工"、"智能"

每一个token都会通过预先设置好的词表,映射为一个token id,这是token 的"身份证",一句话最终会被表示为一个元素为token id的列表,供计算机进行下一步处理。

大语言模型生成文本过程 是一个基于给定文本,迭代预测下一个token的自回归过程。

对我们来说,看似像在对大模型提问,但实际上是给了大模型一串提示文本,让它可以对后续的文本进行推理。 大模型的推理过程不是一步到位的,当大模型进行推理时,它会基于现有的token,根据概率最大原则预测出下一个最有可能的token,然后将该预测的token加入到输入序列中,并将更新后的输入序列继续输入大模型预测下一个token,这个过程叫做自回归。直到输出特殊token(如<EOS>, end of sentence,专门用来控制推理何时结束)或输出长度达到阈值。

大模型的应用

大模型的应用已经非常广泛,正在重塑各行各业。简单来说,其应用可分为核心能力应用(用模型本身的能力解决问题)和场景化解决方案。

相关推荐
宝贝儿好3 天前
【LLM】第二章:HuggingFace入门学习
人工智能·深度学习·神经网络·学习·算法·自然语言处理
神仙别闹3 天前
基于C++ 实现 BP 神经网络
开发语言·c++·神经网络
我登哥MVP3 天前
NeuSO揭秘:用神经网络玩转图数据库子图查询优化
数据库·人工智能·神经网络·图数据库
DXM05214 天前
第14期|高阶分割模型:Transformer/SegFormer遥感应用
人工智能·python·神经网络·算法·计算机视觉·cnn·ageo
装不满的克莱因瓶4 天前
掌握3D CNN模型结构——从时空特征建模到视频理解与医学影像核心架构
人工智能·pytorch·python·深度学习·神经网络·3d·cnn
小龙报4 天前
用ChatGPT 5.5构建个人写作工作流:从大纲、初稿到风格润色的提示词链
人工智能·神经网络·低代码·自然语言处理·chatgpt·gpt-3·知识图谱
极光代码工作室5 天前
基于深度学习的手写数字识别系统
人工智能·python·深度学习·神经网络·机器学习
weixin_550083155 天前
全量的记忆压缩与意义保存
人工智能·深度学习·神经网络·transformer·agi
湘美书院--湘美谈教育5 天前
湘美谈教育湘美书院考古教育系列:湖湘一万年序列整理研究
大数据·人工智能·深度学习·神经网络·机器学习
m0_图灵灵5 天前
吴恩达《深度学习》之看懂神经网络的“底层细胞”:逻辑回归
深度学习·神经网络·逻辑回归