大模型 VS 大语言模型

最近很多朋友搞不懂大模型和大预言模型的区别，总是把大模型就认为是大语言模型。

今天就用这篇帖子做一个科普。

大模型

概念：大模型是指拥有超大规模参数（通常在十亿个以上）、复杂计算结构的机器学习模型。它通常能够处理海量数据，完成各种复杂任务，如自然语言处理、图像识别等。

大语言模型

概念：大语言模型（Large Language Model，简称LLM），指使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务，如文本分类、问答、对话等，是通向人工智能的重要途径。

很明显两者是有明显区别的，大语言模型通常是指我们所用到的对话形式的模型，例如ChatGPT、文心一言之类的模型；而大模型是对超大规模参数的模型统称。

大模型的分类

模型的发展最初是伴随着自然语言处理技术的不断发展的，这是由于文本数据的数据量更大且更容易获取。所以目前大模型最大的分类还是大语言模型，近两年衍生出一些语言与其他形式融合的大模型，例如：

文字生成音乐（MusicLM）
文字生成图像（DALL-E2，Midjourney）
文字图像生成机器人动作（RT-1）

大模型包括但不限于以下几类：

大语言模型（LLM）：专注于处理自然语言，能够理解、生成和处理大规模文本数据。大语言模型在机器翻译、文本生成、对话系统等任务上取得显著成果。OpenAI的GPT系列是其中的代表，包括最新的GPT-4、文心一言、通义千问。开源大模型中有meta 开源的 LLaMA、ChatGLM - 6B、Yi-34B-Chat。你可能会发现了国内的开源模型中，如果名字命名存在chat这个单词的，大概率是大语言模型。
视觉大模型：专注于计算机视觉任务，例如图像分类、目标检测、图像生成等。它们能够从图像中提取有关对象、场景和结构的信息。例如Vision Transformer（ViT）就是一种基于自注意力机制的视觉大模型，用于图像分类任务。
多模态大模型：能够处理多种不同类型的数据，如文本、图像、音频等，并在这些数据之间建立关联。多模态大模型在处理涉及多种感知输入的任务上表现出色，如文图融合、图像描述生成等。多模态是大模型接下来发展的一大趋势。国内的华为盘古大模型就是一个多模态大模型，能够同时理解文本和图像，用于任务如图像分类和自然语言推理，国外的谷歌Gemini也是一个多模态大模型。
决策大模型：专注于进行决策和规划，通常应用于强化学习等领域。它们能够在面对不确定性和复杂环境时做出智能决策。深度强化学习中的模型，如AlphaGo和AlphaZero，是决策大模型的代表，能够在围棋等游戏中取得超人类水平的表现。
行业垂直大模型：专门设计用于特定行业或领域的任务，如医学、环境、教育等。它们通常在处理特定领域的数据和问题时表现出色。在医疗领域有DoctorGPT、华佗GPT，大规模的医学图像处理模型用于诊断和分析。在金融领域，模型可能用于风险评估和交易策略。携程的问道是旅游行业的大模型等等。

由此可见，大语言模型只是大模型的一个分类，我们有时候简称大模型倒也没有什么问题。不过要注意提醒大家一点，大语言模型和行业垂直大模型是有非常明显的区别的，他们的训练数据侧重点不一样，大语言模型更多是理解我们的话里话外的意思，主要负责和人类沟通对话的能力，行业大模型更多是基于语言大模型的基础上再进一步对某些行业的专业知识进行更加深层级的训练。因此你会发现你在用chatGPT类似ai工具的时候，当问到一些专业知识的时候，经常会出现AI幻觉。

举个简单的例子是，开源的LLaMA大模型是一个大语言模型，很多行业大模型都是从这个大语言模型的基础性调教出来的，它就像一个正在读医的大学生。DoctorGPT这个产品就像是一个从业多年的医科教授。因此你问一些专业的医科问题的时候，肯定是医科教授回答更加精准，一些简单的问题可能大学生也能回答。