大模型学习笔记-AI通识

一、人工智能发展

人工智能的发展并非一蹴而就,而是经历了四次范式的根本性转变:

  1. 第一浪潮:规则与符号(1950s-1970s)

    • 核心逻辑:基于"符号主义"。中断认为智能可以拆解为复杂的逻辑规则和搜索算法(如象棋、定理证明)。
  2. 第二浪潮:统计与学习(1980s-2000s)

    • 核心逻辑:转向"联结主义"。不再人工写规则,而是让机器从数据中统计规律(如垃圾邮件过滤)。
  3. 第三浪潮:深度神经网络的突破(2010s)

    • 核心逻辑:深度学习(Deep Learning)崛起。依托GPU算力和海量数据,层层神经元结构让机器在图像识别和语音处理上超越人类。
  4. 第四浪潮:大模型与生成式AI革命(2020年代至今)

    • 核心逻辑:从"专用"转向"通用"。大语言模型(LLM)的出现,使得AI具备了逻辑推理和内容生成的泛化能力。


二、智能支撑的三大基石

为什么大模型在近两年突飞猛进?其背后有三个大象的支撑,被形象地称为AI的"三座大山":

1. 模型算法(大脑结构)

现代AI人类模拟大脑的神经元结构。

  • 神经元(Neuron) :接收输入,进行权重求和,再通过激活函数(如ReLU, Sigmoid)输出。

  • Transformer 架构:这是当前大模型的基石。相比于早期的循环神经网络(RNN),Transformer 支持任务计算,并拥有更长的"上下文窗口",能够理解极长的段落和逻辑。

2.海量数据(知识来源)

如果没有数据训练,再聪明的算法也是"空壳"。AI学习了几乎所有的精华------维基百科、书籍、论文、代码库。这种万亿级的运算量为AI提供了广博的常识。

3.超级算力(进化引擎)

大模型的训练是天文数字级别的计算。数百万顶级GPU(如Nvidia H100)不间断工作,这种算力消耗已远超摩尔定律的增长,是支撑AI进化的物理基础。


三、大模型是如何"学习"的?(基础原理)

1. 万物皆可函数:简单的过程

从数学角度看,大模型可以被视为极其复杂的超大规模函数

  • 简单函数:(只有2个参数)。

  • 大模型函数:拥有千亿级别(参数)的参数。

模型训练:本质上就是通过"猜答案"来直观参数。

  1. 给模型输入一段文字,使预测下一个字。

  2. 对比预测值与真实值的差距(损失函数 Loss Function)。

  3. 根据逆差调整参数(逆差传播 Backpropagation)。

  4. 循环往复,直到模型能够完善人类的语言系统。

2. 核心技术:词向量(Word Embedding)

人类的文字如何涉及大脑损伤?答案是支持化。通过算法,每个词都会被映射到多维空间中的一个坐标点(支持)。

  • 语义关联:在空间中,语义相近的词(如"猫"和"狗")距离更近。

  • 预警损伤:模型可以通过预警加减进行推理。例如著名的公式:

    E(国王) - E(男人) + E(女人) ≈ E(女王)

这种将语言转为高维坐标的能力,是大模型理解语境和逻辑的关键。


四、专用名词解释

  • LLM ( Large Language Model) :大语言模型,指参数规模极大的神经网络模型。

  • GPT (Generative Pre-trained Transformer - 生成式预训练变换器) :这是 OpenAI 公司开发的一个具体的 LLM 系列

    • Generative 代表"生成式",能自己写文章、写代码;

    • Pre-trained 代表"预训练",它已经提前读完了海量的互联网数据;

    • Transformer 则是它的底层"神经架构"。从 GPT-1 到现在的 GPT-4,它们都是底层的 AI 引擎。

ChatGPT :这是一款基于 GPT 模型开发的应用产品(聊天机器人)。如果说 GPT 是底层的"汽车发动机",那么 ChatGPT 就是一辆拥有方向盘、座椅的"整车"。它通过一种叫做人类反馈强化学习(RLHF)的技术进行了微调,使得底层那个冷冰冰的 GPT 模型能够用人类习惯的口吻跟你顺畅对话。

  • 分析(Emergence):当模型规模达到一定临界点时,AI就会突然获得究竟不具备的能力(如逻辑推理、幽默感)。

  • 泛化(Generalization):指模型不仅能记住训练过的数据,还能处理从未见过的、类似的新问题。

  • AGI(Artificial General Intelligence):通用人工智能,指在各种任务上达到或超过人类水平的AI终极目标。

相关推荐
用户018349301691 小时前
用Zustand管理AI多会话状态
人工智能
武子康3 小时前
调查研究-198 Agent 到底该记住什么?读懂《What Must Generalist Agents Remember?》
人工智能·openai·agent
aqi004 小时前
15天学会AI应用开发(九)利用Chroma持久化向量数据
人工智能·python·大模型·ai编程·ai应用
武子康5 小时前
调查研究-197 FAISS vs Elasticsearch 全面对比:从向量检索、全文搜索到 RAG 选型指南
人工智能·elasticsearch·agent
青禾网络6 小时前
Web 前端如何接入 AI 音效生成:从零到可用的完整方案
人工智能·设计模式
用户252736278146 小时前
【技术实战】用 Spring Boot + Vue3 + LM Studio 在本地跑通 RAG 知识库
人工智能
用户5191495848456 小时前
VBScript随机数生成器内部机制:从时间种子到密码令牌破解
人工智能·aigc
米小虾6 小时前
Context Engineering —— 知识与记忆的窗口
人工智能·agent
IT_陈寒6 小时前
Python里这个赋值坑,连老司机都能翻车
前端·人工智能·后端