大话AI模型:无需数学知识,掌握LLM原理

只有认识模型,才能用好模型。

我们将直观地了解模型是如何运行的以及它的能力是如何产生的,不需要用到数学知识。

涉及的知识:为什么token和汉字不是一一对应、语料的作用、模型训练过程、模型如何运行、模型中的参数是什么、模型为什么几个字几个输出、涌现是什么、模型能力有什么决定、提示语工程、如何选择模型

一、先验知识

模型需要能认识文字,并且需要大量数据语料来学习。

  1. 比如下边是其中一个数据语料:

    从前有一只可爱的小白兔,它住在一个美丽的森林里。小白兔非常勤劳,每天都会去森林里采集蘑菇和胡萝卜。

  2. 我们将这句话拆成词组,如下:

    {从前}{有}{一只}{可爱的}{小}{白兔}...

上边出现的词组,例如:"从前"、"有"、"一只"、"可爱的"、"小"、"白兔"... 大括号中的每个部分叫做一个"token"。

所有词组成的表叫做"token表",它存储了模型能认识的所有字。

这就说明了为什么 一个"token"和一个汉字不一定是一一对应 的关系。

二、模型训练

使用如下语料,观察一下模型的训练过程:

从前有一只可爱的小白兔,它住在一个美丽的森林里。小白兔非常勤劳,每天都会去森林里采集蘑菇和胡萝卜。

对这句话进行token拆分,如下:

{从前}{有}{一只}{可爱的}{小}{白兔}...

训练的时候我们陆续盖住这些词组,让模型猜下一个词:

  1. 第一次训练:

    input:从前

    output:?

    如果output猜的是{有},则不做操作,如果不是,则让模型调整[参数]。

  2. 第二次训练:

    input:从前有

    output:?

    如果output猜的是{一只},则不做操作,如果不是,则让模型调整[参数]。

    ...

    (备注,这里说的 [参数]实际是对应模型的大小 ,例如GPT3模型大小是175b参数)

所有语料都经过处理后,不断调整模型参数,最终模型调整完成。

使用模型

当使用训练好的模型时,首先输入信息(input){此例中:从前},模型生成输出(output){此例中:有},然后此输出加到输入中形成新的输入{此例中:从前有},再基于这个新输入生成新输出{此例中:一只}。这个过程一直重复,直到模型输出结束符号,这时模型输出完全完成。

这也就是为什么在 使用模型的时候,它是几个字几个字这样输出 的。

涌现

模型究竟学习到了什么?

模型学习到了在给定输入(input)的情况下,理解这个输入并基于理解生成输出(output)。

这个 理解和输出的过程,就是模型的能力。

因为通过大量的预料训练,模型从这些文本中找到了一些规律,包含不限于以下这些:

语法、语序、语义、逻辑、推理、情绪 。。;

这些能力都来自语料中的信息。

比如我们有两类主要语料信息:

数学题:

我们规定两人轮流做一个工程是指,第一个人先做一个小时,第二个人做一个小时,然后再由

第一个人做一个小时,然后又由第二个人做一个小时,如此反复,做完为止。如果甲、乙轮流做一个工程需要9.8小时,而乙、甲轮流做同样的工程只需要9.6小时,那乙单独做这个工程需要多少小时?

解:两次做每人所花时间:甲乙

5小时4.8小时

4.6小时5小时

∴甲做0.4小时完成的工程等于乙做0.2小时,乙的效率是甲的2倍,甲做5小时完成的任务乙只要2.5小时就能完成。
**∴**乙单独完成这个工程要2.5+4.8=7.3(小时)

故事书:

从前有一只可爱的小白兔,它住在一个美丽的森林里。小白兔非常勤劳,每天都会去森林里采集蘑菇和胡萝卜。

这些语料有个基本的特点,他们都是普通话描述的,所以模型的基础能力肯定有:

语法、语序、语义等。。

如果训练的数学数据很多的话,他就会出现了如下能力:

数学、推理等。。

当不同种类的训练预料多到一定程度的时候,就会产生各种能力,比如:

语法、语序、语义、数学、推理、编码、逻辑、推理、情绪 。。;

除了这些, 模型还学习到了很多很多说不清的能力,这些所有的能力称之为涌现

充分训练后的LLM能力的示意图如下:

  1. 黑点部分为模型的能力
  2. 红色直线表示"已经充分训练后的LLM":

因为模型训练的语料大多是普通话,所以训练好的模型在语法、语序、语义方面能力很强。

至于数学、推理、编码、逻辑等能力,则 取决于训练语料的多少,不同能力的表现程度会有所不同。

模型的能力由什么决定?

第一个影响因素是token表: 他是指模型可以认识的字。(这部分差异不大,不做介绍。)

第二个影响因素则是语料:

各家模型的训练方法其实都是大同小异的,最大的差异在于他们用什么语料来训练模型。

比如豆包模型,它是字节跳动的模型,他们的抖音短视频信息很多,属于C端用户信息较多的,也会有很多营销策略等信息,所以他们处理C端营销的方案方面就比较强。

比如千问模型,它是阿里的模型,因为他们有阿里健康相关的预料,所以他们在医疗模块方面的能力就比较强。

这些预料的不同,就造成了不同厂家的模型有不同的能力,有些能力较强,有些能力则较弱。

我们的问题是:能力如此不同,怎么更好的与模型交互呢?

提示语工程

模型的逻辑是:通过你输入的input,去理解你的意思,使用模型的理解,去输出output。

这里说的 input,我们称之为提示语

在一个大参数模型(一般指千亿规模100B+)下,如果预料训练充分的话,他的语言能力其实是差不多的,这些能力大概包括如下:

语法、语序、语义等。。

但是其他 涌现出来的能力都怎么样,其实就不能确定了 ,因为更多的是依赖预料的类型,这些能力大致包括如下:

语法、语序、语义、数学、推理、编码、逻辑、推理、情绪 。。;

模型的能力不确定的话,如何使用模型呢?

openai推出了一个提示语工程手册[1],手册大概描写了如何向模型提问的6个策略:

1.提供更详细的问题背景信息

2.让模型扮演一个角色

3.用分隔符,清晰的表达不同部分的逻辑

4.如果是复杂问题,给他个拆解步骤,让它按步骤执行

5.提供一些输入input和输出output的例子

6.指定输出的格式

这些策略的重点都是在于如何把一个问题描述清楚,然后使用模型涌现出的能力,得到最终的输出。

如果 你的input描述的很清楚,你的最佳策略应该是去尝试不同的模型了

没有哪个模型是一定比另一个模型强的,不同的场景要使用不同的模型

1\]openai提示语工程手册:https://platform.openai.com/docs/guides/prompt-engineering

相关推荐
欣然~24 分钟前
借助 OpenCV 和 PyTorch 库,利用卷积神经网络提取图像边缘特征
人工智能·计算机视觉
谦行33 分钟前
工欲善其事,必先利其器—— PyTorch 深度学习基础操作
pytorch·深度学习·ai编程
MonkeyKing_sunyuhua1 小时前
2.2 主流大模型架构:GPT、DeepSeek、GLM、Claude、QwQ、Qwen2.5-Max等模型的比较与应用场景
gpt·架构
xwz小王子1 小时前
Nature Communications 面向形状可编程磁性软材料的数据驱动设计方法—基于随机设计探索与神经网络的协同优化框架
深度学习
win4r1 小时前
🔥超越cursor!Cline+Context7 MCP文档搜索功能高级用法!自定义指令+.clinerules轻松开启vibe coding!零代码构建Au
aigc·openai·cline
白熊1881 小时前
【计算机视觉】CV实战项目 - 基于YOLOv5的人脸检测与关键点定位系统深度解析
人工智能·yolo·计算机视觉
nenchoumi31191 小时前
VLA 论文精读(十六)FP3: A 3D Foundation Policy for Robotic Manipulation
论文阅读·人工智能·笔记·学习·vln
后端小肥肠1 小时前
文案号搞钱潜规则:日入四位数的Coze工作流我跑通了
人工智能·coze
LCHub低代码社区1 小时前
钧瓷产业原始创新的许昌共识:技术破壁·产业再造·生态重构(一)
大数据·人工智能·维格云·ai智能体·ai自动化·大禹智库·钧瓷码
-曾牛1 小时前
Spring AI 快速入门:从环境搭建到核心组件集成
java·人工智能·spring·ai·大模型·spring ai·开发环境搭建