大语言模型入门-基本概念

文章目录

  • [1、大模型是什么?------ 它的演变之路](#1、大模型是什么?—— 它的演变之路)
  • [2、LLM是如何炼成的?------ 训练三阶段](#2、LLM是如何炼成的?—— 训练三阶段)
  • 3、LLM的鲜明特点
  • 4、LLM有哪些种类?
  • [5、LLM是如何工作的?------ 核心工作流](#5、LLM是如何工作的?—— 核心工作流)
  • [6、LLM能做什么?------ 应用场景](#6、LLM能做什么?—— 应用场景)

1、大模型是什么?------ 它的演变之路

  1. 奠基阶段:机器学习

    这是让计算机从数据中"学习"的方法总称。

    • 监督学习:像有老师手把手教。给计算机看大量"问题"(数据)和对应的"标准答案"(标签),让它学会从问题找答案的规律。比如,给很多猫和狗的图片并标好类别,让它学会区分。
    • 非监督学习:像让计算机自己观察总结。只给数据,没有标准答案,让它自己发现数据中的结构和模式。比如,对用户进行自动分群。
    • 强化学习:像训练宠物。让智能体在环境中通过"行动"获得"奖励"或"惩罚",从而学习达成目标的最佳策略。这是让AI下棋、玩游戏很厉害的方法。
  2. 核心引擎:深度学习与神经网络

    这是实现更复杂"学习"的关键技术

    • 神经网络:模仿人脑神经元连接的计算模型,是深度学习的基础。
    • CNN(卷积神经网络) :擅长处理图像、网格状数据(如图片),是计算机视觉的基石。
    • RNN(循环神经网络) :擅长处理序列数据(如文本、语音),能考虑上下文,但难以处理长序列。
    • Transformer :这是划时代的突破 !它通过"自注意力机制"能同时处理序列中的所有部分,并高效地建立远程依赖。它是当今所有大语言模型(如GPT)的绝对核心架构
  3. 爆发之路:大模型时代来临

    • 2021年:"基础模型"概念兴起。指在海量数据上训练出的、能适应多种任务的巨型模型。
    • 2022年:ChatGPT横空出世 。基于GPT-3.5的ChatGPT向世界展示了对话式AI的巨大潜力,引发全球关注。
    • 2023年:国内"百模大战"。中国科技公司纷纷推出自己的大模型。
    • 2024年及以后:应用深化 。技术焦点转向如何更好地使用大模型:
      • RAG:给模型"外接硬盘"。让模型能够读取它训练数据之外的最新、专有知识来回答问题,减少"胡说八道"。
      • Agents(智能体):给模型"手脚和工具"。让大模型不仅能思考,还能调用其他软件、API去执行具体任务(如订机票、分析数据)。

2、LLM是如何炼成的?------ 训练三阶段

制造一个有用的对话AI,通常需要三步:

  1. 预训练 (学到通用知识)

    • 目标:让模型"博览群书"。在超大规模的互联网文本数据上,完成"给定上文,预测下一个词"的核心任务。
    • 结果 :得到一个拥有丰富语言知识和世界知识的"基础模型",但它可能不听话、有害或不懂指令。
  2. SFT监督微调 (学会听懂人话)

    • 目标:教模型"遵守指令"。用大量精心编写的"指令-优质回答"对话数据对基础模型进行微调。
    • 结果:模型变得能理解人类的提问,并给出有帮助、格式规范的答案。它从"知识库"变成了"好学生"。
  3. RLHF基于人类反馈的强化学习 (学会对齐人类偏好)

    • 目标 :让模型的回答更安全、更有用、更符合人类价值观。让人类标注员对模型的多个回答进行排序,训练一个"奖励模型"来评判好坏,再用强化学习驱动模型朝着获得高奖励的方向优化。
    • 结果 :得到像ChatGPT这样有用、诚实、无害的AI助手。这是模型变得"友好"的关键一步。

3、LLM的鲜明特点

  • 规模巨大:参数动辄千亿、万亿,这是其强大能力的物理基础。
  • 能力涌现:当规模超过某个临界点,模型会突然展现出在训练中没有明确教过的能力(如推理、代码生成)。
  • 适应性强:通过提示或微调,能快速适应各种新任务,是"通用人工智能"的雏形。
  • 数据海量:在几乎整个互联网的文本上进行预训练,知识面极广。
  • 计算饥渴:训练和运行需要巨大的算力(GPU)和电力,成本高昂。

4、LLM有哪些种类?

  • 纯文本大模型 :如GPT系列、Llama、文心一言、通义千问。专精于处理语言和对话
  • 多模态大模型 :能同时理解和生成多种类型的信息
    • 图文模型:如DALL-E、Midjourney(文生图),GPT-4V(图生文)。
    • 音频-文本模型:如Whisper(语音识别),TTS(文本转语音)。
    • 视频-文本模型:正在快速发展中。

5、LLM是如何工作的?------ 核心工作流

当AI回答你的问题时,内部经历了这样的过程:

1. 分词化与映射

  • 分词化 :把你的句子切成模型能理解的"积木块"。
    • 西文:常用"子词"粒度,如 "playing" -> "play" + "ing"。
    • 中文:常用"词"或"子词"粒度,如"人工智能" -> "人工" + "智能"。
  • 映射 :每个"积木块"根据一个巨大的词表,被转换成一个唯一的数字ID。你的话最终变成一串数字序列输入模型。

2. 自回归文本生成(核心!)

  • 模型拿到你的话对应的数字序列后,开始"造句"。
  • 它的核心任务永远是:根据已生成的所有内容,预测下一个最可能的"积木块"(Token)是什么
  • 它预测出一个词(转为数字ID),就把它加到输入序列的末尾,然后用这个新的、更长的序列再去预测下一个词。
  • 循环往复,直到生成完整的回答或达到长度限制。这个过程就叫"自回归"。

6、LLM能做什么?------ 应用场景

理解了原理,你会发现它的应用无处不在:

  • 智能对话与客服:24小时在线的助手。
  • 内容创作:写文章、邮件、脚本、诗歌。
  • 知识问答与摘要:快速从文档中提取信息,总结长文。
  • 代码助手:根据注释写代码、解释代码、找bug。
  • 翻译与润色:多语言翻译,文本风格改写。
  • 作为"智能大脑":驱动RAG系统构建知识库,或作为Agent的核心控制器去自动化复杂工作流。
相关推荐
雷焰财经2 小时前
智能合约赋能与全球实践:宇信科技绘制银行数字人民币能力建设新蓝图
人工智能·科技·金融·智能合约
飞Link2 小时前
终结序列建模:Transformer 架构深度解析与实战指南
人工智能·python·深度学习·算法·transformer
青瓷程序设计2 小时前
基于深度学习的【动物识别】系统实现~Python+人工智能+图像识别+算法模型
人工智能·python·深度学习
AC赳赳老秦2 小时前
2026 AI原生工具链升级:DeepSeek与AI原生IDE深度联动,重塑开发效率新高度
大数据·ide·人工智能·web3·去中心化·ai-native·deepseek
virtaitech2 小时前
GPU池化技术走向大众:趋动科技推出永久免费OrionX社区版
人工智能·科技·gpu算力·算力·云平台
格林威2 小时前
工业相机图像高速存储(C#版):先存内存,后批量转存方法,附海康相机实战代码!
开发语言·人工智能·数码相机·计算机视觉·c#·视觉检测·海康相机
ZTLJQ2 小时前
深入理解GAN:生成对抗网络的原理与实战应用
人工智能·神经网络·生成对抗网络
EQUINOX12 小时前
计算机视觉,图像增广,微调,R-CNN,SSD,YOLO
人工智能·计算机视觉