大模型学习笔记-AI通识

一、人工智能发展

人工智能的发展并非一蹴而就,而是经历了四次范式的根本性转变:

  1. 第一浪潮:规则与符号(1950s-1970s)

    • 核心逻辑:基于"符号主义"。中断认为智能可以拆解为复杂的逻辑规则和搜索算法(如象棋、定理证明)。
  2. 第二浪潮:统计与学习(1980s-2000s)

    • 核心逻辑:转向"联结主义"。不再人工写规则,而是让机器从数据中统计规律(如垃圾邮件过滤)。
  3. 第三浪潮:深度神经网络的突破(2010s)

    • 核心逻辑:深度学习(Deep Learning)崛起。依托GPU算力和海量数据,层层神经元结构让机器在图像识别和语音处理上超越人类。
  4. 第四浪潮:大模型与生成式AI革命(2020年代至今)

    • 核心逻辑:从"专用"转向"通用"。大语言模型(LLM)的出现,使得AI具备了逻辑推理和内容生成的泛化能力。


二、智能支撑的三大基石

为什么大模型在近两年突飞猛进?其背后有三个大象的支撑,被形象地称为AI的"三座大山":

1. 模型算法(大脑结构)

现代AI人类模拟大脑的神经元结构。

  • 神经元(Neuron) :接收输入,进行权重求和,再通过激活函数(如ReLU, Sigmoid)输出。

  • Transformer 架构:这是当前大模型的基石。相比于早期的循环神经网络(RNN),Transformer 支持任务计算,并拥有更长的"上下文窗口",能够理解极长的段落和逻辑。

2.海量数据(知识来源)

如果没有数据训练,再聪明的算法也是"空壳"。AI学习了几乎所有的精华------维基百科、书籍、论文、代码库。这种万亿级的运算量为AI提供了广博的常识。

3.超级算力(进化引擎)

大模型的训练是天文数字级别的计算。数百万顶级GPU(如Nvidia H100)不间断工作,这种算力消耗已远超摩尔定律的增长,是支撑AI进化的物理基础。


三、大模型是如何"学习"的?(基础原理)

1. 万物皆可函数:简单的过程

从数学角度看,大模型可以被视为极其复杂的超大规模函数

  • 简单函数:(只有2个参数)。

  • 大模型函数:拥有千亿级别(参数)的参数。

模型训练:本质上就是通过"猜答案"来直观参数。

  1. 给模型输入一段文字,使预测下一个字。

  2. 对比预测值与真实值的差距(损失函数 Loss Function)。

  3. 根据逆差调整参数(逆差传播 Backpropagation)。

  4. 循环往复,直到模型能够完善人类的语言系统。

2. 核心技术:词向量(Word Embedding)

人类的文字如何涉及大脑损伤?答案是支持化。通过算法,每个词都会被映射到多维空间中的一个坐标点(支持)。

  • 语义关联:在空间中,语义相近的词(如"猫"和"狗")距离更近。

  • 预警损伤:模型可以通过预警加减进行推理。例如著名的公式:

    E(国王) - E(男人) + E(女人) ≈ E(女王)

这种将语言转为高维坐标的能力,是大模型理解语境和逻辑的关键。


四、专用名词解释

  • LLM ( Large Language Model) :大语言模型,指参数规模极大的神经网络模型。

  • GPT (Generative Pre-trained Transformer - 生成式预训练变换器) :这是 OpenAI 公司开发的一个具体的 LLM 系列

    • Generative 代表"生成式",能自己写文章、写代码;

    • Pre-trained 代表"预训练",它已经提前读完了海量的互联网数据;

    • Transformer 则是它的底层"神经架构"。从 GPT-1 到现在的 GPT-4,它们都是底层的 AI 引擎。

ChatGPT :这是一款基于 GPT 模型开发的应用产品(聊天机器人)。如果说 GPT 是底层的"汽车发动机",那么 ChatGPT 就是一辆拥有方向盘、座椅的"整车"。它通过一种叫做人类反馈强化学习(RLHF)的技术进行了微调,使得底层那个冷冰冰的 GPT 模型能够用人类习惯的口吻跟你顺畅对话。

  • 分析(Emergence):当模型规模达到一定临界点时,AI就会突然获得究竟不具备的能力(如逻辑推理、幽默感)。

  • 泛化(Generalization):指模型不仅能记住训练过的数据,还能处理从未见过的、类似的新问题。

  • AGI(Artificial General Intelligence):通用人工智能,指在各种任务上达到或超过人类水平的AI终极目标。

相关推荐
南宫惠泽2 小时前
深度学习章节:模型的选择与训练.交叉验证.测试集, 诊断偏差与方差,正则化与偏差方差,建立基准性能水平
人工智能·深度学习
Swift社区2 小时前
并行容错:OpenClaw的多智能体协作革命
人工智能·agent·openclaw
kongba0072 小时前
AI 项目初始化规范指南 V3.1 提示词模板
人工智能
薛定猫AI2 小时前
【深度解析】GPT 5.5 类 Agent 模型的工程能力:从多步骤规划、Token 效率到 AI 编码工作流落地
人工智能·gpt
珠海西格电力2 小时前
零碳园区管理系统如何守护能源与数据安全?
大数据·人工智能·分布式·架构·能源
墨染天姬2 小时前
【AI】2026 年具身智能模型和世界模型总结
人工智能
徐礼昭|商派软件市场负责人2 小时前
2026年“服饰行业全渠道OMS系统”库存/订单运营策略:以“一盘货+分渠分级”驱动销售最大化
大数据·人工智能·oms系统·服饰行业库存管理
qq_283720052 小时前
本地大模型部署全教程:Python 低成本调用开源 AI 模型
人工智能·python·开源