大话AI模型:无需数学知识,掌握LLM原理

只有认识模型,才能用好模型。

我们将直观地了解模型是如何运行的以及它的能力是如何产生的,不需要用到数学知识。

涉及的知识:为什么token和汉字不是一一对应、语料的作用、模型训练过程、模型如何运行、模型中的参数是什么、模型为什么几个字几个输出、涌现是什么、模型能力有什么决定、提示语工程、如何选择模型

一、先验知识

模型需要能认识文字,并且需要大量数据语料来学习。

  1. 比如下边是其中一个数据语料:

    从前有一只可爱的小白兔,它住在一个美丽的森林里。小白兔非常勤劳,每天都会去森林里采集蘑菇和胡萝卜。

  2. 我们将这句话拆成词组,如下:

    {从前}{有}{一只}{可爱的}{小}{白兔}...

上边出现的词组,例如:"从前"、"有"、"一只"、"可爱的"、"小"、"白兔"... 大括号中的每个部分叫做一个"token"。

所有词组成的表叫做"token表",它存储了模型能认识的所有字。

这就说明了为什么 一个"token"和一个汉字不一定是一一对应 的关系。

二、模型训练

使用如下语料,观察一下模型的训练过程:

从前有一只可爱的小白兔,它住在一个美丽的森林里。小白兔非常勤劳,每天都会去森林里采集蘑菇和胡萝卜。

对这句话进行token拆分,如下:

{从前}{有}{一只}{可爱的}{小}{白兔}...

训练的时候我们陆续盖住这些词组,让模型猜下一个词:

  1. 第一次训练:

    input:从前

    output:?

    如果output猜的是{有},则不做操作,如果不是,则让模型调整[参数]。

  2. 第二次训练:

    input:从前有

    output:?

    如果output猜的是{一只},则不做操作,如果不是,则让模型调整[参数]。

    ...

    (备注,这里说的 [参数]实际是对应模型的大小 ,例如GPT3模型大小是175b参数)

所有语料都经过处理后,不断调整模型参数,最终模型调整完成。

使用模型

当使用训练好的模型时,首先输入信息(input){此例中:从前},模型生成输出(output){此例中:有},然后此输出加到输入中形成新的输入{此例中:从前有},再基于这个新输入生成新输出{此例中:一只}。这个过程一直重复,直到模型输出结束符号,这时模型输出完全完成。

这也就是为什么在 使用模型的时候,它是几个字几个字这样输出 的。

涌现

模型究竟学习到了什么?

模型学习到了在给定输入(input)的情况下,理解这个输入并基于理解生成输出(output)。

这个 理解和输出的过程,就是模型的能力。

因为通过大量的预料训练,模型从这些文本中找到了一些规律,包含不限于以下这些:

语法、语序、语义、逻辑、推理、情绪 。。;

这些能力都来自语料中的信息。

比如我们有两类主要语料信息:

数学题:

我们规定两人轮流做一个工程是指,第一个人先做一个小时,第二个人做一个小时,然后再由

第一个人做一个小时,然后又由第二个人做一个小时,如此反复,做完为止。如果甲、乙轮流做一个工程需要9.8小时,而乙、甲轮流做同样的工程只需要9.6小时,那乙单独做这个工程需要多少小时?

解:两次做每人所花时间:甲乙

5小时4.8小时

4.6小时5小时

∴甲做0.4小时完成的工程等于乙做0.2小时,乙的效率是甲的2倍,甲做5小时完成的任务乙只要2.5小时就能完成。
**∴**乙单独完成这个工程要2.5+4.8=7.3(小时)

故事书:

从前有一只可爱的小白兔,它住在一个美丽的森林里。小白兔非常勤劳,每天都会去森林里采集蘑菇和胡萝卜。

这些语料有个基本的特点,他们都是普通话描述的,所以模型的基础能力肯定有:

语法、语序、语义等。。

如果训练的数学数据很多的话,他就会出现了如下能力:

数学、推理等。。

当不同种类的训练预料多到一定程度的时候,就会产生各种能力,比如:

语法、语序、语义、数学、推理、编码、逻辑、推理、情绪 。。;

除了这些, 模型还学习到了很多很多说不清的能力,这些所有的能力称之为涌现

充分训练后的LLM能力的示意图如下:

  1. 黑点部分为模型的能力
  2. 红色直线表示"已经充分训练后的LLM":

因为模型训练的语料大多是普通话,所以训练好的模型在语法、语序、语义方面能力很强。

至于数学、推理、编码、逻辑等能力,则 取决于训练语料的多少,不同能力的表现程度会有所不同。

模型的能力由什么决定?

第一个影响因素是token表: 他是指模型可以认识的字。(这部分差异不大,不做介绍。)

第二个影响因素则是语料:

各家模型的训练方法其实都是大同小异的,最大的差异在于他们用什么语料来训练模型。

比如豆包模型,它是字节跳动的模型,他们的抖音短视频信息很多,属于C端用户信息较多的,也会有很多营销策略等信息,所以他们处理C端营销的方案方面就比较强。

比如千问模型,它是阿里的模型,因为他们有阿里健康相关的预料,所以他们在医疗模块方面的能力就比较强。

这些预料的不同,就造成了不同厂家的模型有不同的能力,有些能力较强,有些能力则较弱。

我们的问题是:能力如此不同,怎么更好的与模型交互呢?

提示语工程

模型的逻辑是:通过你输入的input,去理解你的意思,使用模型的理解,去输出output。

这里说的 input,我们称之为提示语

在一个大参数模型(一般指千亿规模100B+)下,如果预料训练充分的话,他的语言能力其实是差不多的,这些能力大概包括如下:

语法、语序、语义等。。

但是其他 涌现出来的能力都怎么样,其实就不能确定了 ,因为更多的是依赖预料的类型,这些能力大致包括如下:

语法、语序、语义、数学、推理、编码、逻辑、推理、情绪 。。;

模型的能力不确定的话,如何使用模型呢?

openai推出了一个提示语工程手册[1],手册大概描写了如何向模型提问的6个策略:

1.提供更详细的问题背景信息

2.让模型扮演一个角色

3.用分隔符,清晰的表达不同部分的逻辑

4.如果是复杂问题,给他个拆解步骤,让它按步骤执行

5.提供一些输入input和输出output的例子

6.指定输出的格式

这些策略的重点都是在于如何把一个问题描述清楚,然后使用模型涌现出的能力,得到最终的输出。

如果 你的input描述的很清楚,你的最佳策略应该是去尝试不同的模型了

没有哪个模型是一定比另一个模型强的,不同的场景要使用不同的模型

[1]openai提示语工程手册:https://platform.openai.com/docs/guides/prompt-engineering

相关推荐
迅易科技1 小时前
借助腾讯云质检平台的新范式,做工业制造企业质检的“AI慧眼”
人工智能·视觉检测·制造
古希腊掌管学习的神2 小时前
[机器学习]XGBoost(3)——确定树的结构
人工智能·机器学习
ZHOU_WUYI3 小时前
4.metagpt中的软件公司智能体 (ProjectManager 角色)
人工智能·metagpt
haibo21443 小时前
GPT-Omni 与 Mini-Omni2:创新与性能的结合
gpt
靴子学长3 小时前
基于字节大模型的论文翻译(含免费源码)
人工智能·深度学习·nlp
AI_NEW_COME4 小时前
知识库管理系统可扩展性深度测评
人工智能
海棠AI实验室5 小时前
AI的进阶之路:从机器学习到深度学习的演变(一)
人工智能·深度学习·机器学习
hunteritself5 小时前
AI Weekly『12月16-22日』:OpenAI公布o3,谷歌发布首个推理模型,GitHub Copilot免费版上线!
人工智能·gpt·chatgpt·github·openai·copilot
IT古董5 小时前
【机器学习】机器学习的基本分类-强化学习-策略梯度(Policy Gradient,PG)
人工智能·机器学习·分类
centurysee5 小时前
【最佳实践】Anthropic:Agentic系统实践案例
人工智能