对语言大模型的现状总结与趋势

本文是对《对语言大模型的若干观察和思考》等网文总结

ChatGPT与LLM技术现状

LLM的主要手段

模型:Transformer拥有强大的表示能力,能对具有组合性(compositinality)的语言进行很好的表示和学习。

预训练(pre-training):使用大规模文本数据进行语言建模(language modeling),学习进行的是数据压缩,也就是单词序列的生成概率最大化或预测误差最小化。

监督微调 SFT(supervised fine tunning) :学习的是输入到输出的映射, <math xmlns="http://www.w3.org/1998/Math/MathML"> X → Y X→Y </math>X→Y, 或者是输入到输出的映射及产出过程 <math xmlns="http://www.w3.org/1998/Math/MathML"> X , C 1 ⋯ , C n → Y X, C_1⋯,C_n→Y </math>X,C1⋯,Cn→Y,学习到模型的基本行为。这里, <math xmlns="http://www.w3.org/1998/Math/MathML"> C 1 ⋯ , C n C_1⋯,C_n </math>C1⋯,Cn 代表思维链。

基于人类反馈的强化学习 RLHF(reinforcement learning from human feedback):根据人的反馈,调整模型的整体行为。

LLM 核心竞争力

ChatGPT 和 GPT4 相比传统的深度学习技术,如 BERT,主要是在智能性和通用性上取得了巨大突破。具备语言、知识、简单推理能力,能够很好地近似人的智能行为。不需要标注数据就可以在不同领域完成不同任务,也就是进行零样本或小样本学习

LLM 带来的巨大进步。究其原因:

  • 一是使用大数据大模型大算力 规模带来了质的变化。 ChatGPT 有 175B 参数,300B 的 token 做训练。而之前的模型参数规模超过 1B 的都不多。

  • 二是 Open AI 开发出了一套调教大模型的方法,包括基本步骤、技巧和工程实现 利用语言建模的机制将人的知识和能力输入给大模型。大规模系统的工程实现和模型的调教方法成了 Open AI 的核心竞争力。

LLM 的优点和局限

LLM 已经非常强大。但也有大家指出的明显需要解决的问题:

  • 1. 如何优化模型,也就是降低训练和使用成本,同时扩大可处理问题的规模。
  • 2. 如何保证模型生成内容的真实性,也就是避免幻觉。
  • 3. 如何构建可信赖大模型,也就是保证模型生成结果的有用性,安全性等。

LLM 重要研究课题

  • LLM 的优化
  • LLM 的真实性
  • 可信赖 LLM 与 AI 伦理
  • LLM 的理论
  • 多模态大模型
  • LLM + 逻辑推理
  • 智能体(agent)

面向未来,多模态大模型、LLM+ 逻辑推理、智能体等都是重要的研究课题,尤其是多模态大模型、LLM+ 逻辑推理。

LLM 的统一实现

LLM 实现所有自然语言处理任务

目前为止,自然语言处理有六个大的任务,包括分类、匹配、标注和语义分析、序列生成、序列到序列、序贯决策。

  • 分类:从文字序列到标签的映射,如文本分类。

  • 匹配:文字序列与文字序列的匹配,如搜索、阅读理解。

  • 标注和语义分析:文字序列到标签序列或结构表示的映射,如分词、词性标注、句法分析。

  • 序列生成:文字序列的生成,也就是基于语言模型的生成。

  • 序列到序列(seq2seq):文字序列到文字序列的转化,如机器翻译、生成式对话、摘要。

  • 序贯决策:基于已有的文字序列产生新的文字序列,如多轮对话。

前三个是语言理解任务,后三个是语言生成任务。理解任务的输出是类别标签等,可以认为是心智语言的表示。

所有的任务都可以用序列到序列 seq2seq 模型实现。语言理解是自然语言到心智语言的 seq2seq。语言生成是心智语言到自然语言的 seq2seq。语言转换是一种自然语言到另一种自然语言的转换。

多模态大模型

多模态大模型指的是将文本、图像、视频、音频等多模态信息联合起来进行训练的模型。

代表性的MLLM分为4种主要类型:

  • 多模态指令调整(MIT)
  • 多模态上下文学习(M-ICL)
  • 多模态思想链(M-CoT)
  • LLM辅助视觉推理(LAVR)

前三个构成了MLLM的基本原理,而最后一个是以LLM为核心的多模态系统。但前三种技术也都是是相对独立的,并且可以组合使用。

多模态处理应该是 LLM 之后未来人工智能发展的重要方向。多模态研究最近也有很多进展。比如,视觉语言模型(vision language model)方面,Open AI 开发的 CLIP 模型是视觉语言对齐上最有代表性的模型。字节跳动也开发了 X-VLM 模型,在细粒度的多模态理解任务上有最好的表现 。

LLM 与数学能力

数学能力包括几种能力,有逻辑推理、算术计算、代数计算、几何概念理解等。

人的数学解题有两种机制,分别使用心理学称作的系统 1 和系统 2,进行快的思维(基于死记硬背)和慢的思维(进行深入思考)。用LLM直接解题,对应着系统 1。 用 LLM 产生心智语言,在心智语言的基础上进行解题,对应着系统 2。

LLM 本身具备类推推理(analogical reasoning)的能力,但不具备逻辑推理(logical reasoning)的能力(逻辑推理是指基于三段论的推理)。因此,LLM 可以做一些简单的数学计算、数学解题。对比于人,相当于用死记硬背的方法做数学。虽然 GPT4 展现出了非常强的数学解题能力,求解复杂的数学问题应该还需要其他机制。

附录

《对语言大模型的若干观察和思考》主要观点

ChatGPT 的突破主要在于规模带来的质变和模型调教方式的发明。

LLM 融合了实现人工智能的三条路径。

LLM 的开发需要结合第三者体验和第一者体验。

LLM 能近似生成心智语言。

LLM 需要与多模态大模型结合,以产生对世界的认识。

LLM 本身不具备逻辑推理能力,需要在其基础上增加推理能力。

Transformers

语言模型不仅仅是一个神经网络。

现代语言模型包含各种组件或块,通常由不同的神经网络组成,每个组件或块都设计用于执行特定任务并具有专门的体系结构。「几乎所有当前的 LM 都基于一种特别成功的架构选择,那就是Transformer」

从自然语言处理 (NLP) 领域开始,Transformers 已经彻底改变了几乎所有应用 AI 领域,因为它们能够高效地一次处理大量数据(并行化)而不是顺序处理,这一特性允许在更大的数据集上进行训练 数据集比以前的现有架构。在文本数据上,Transformers 被证明非常擅长执行某种形式的自然语言上下文理解,这使它们成为当今大多数NLP任务的标准选择。两个组成部分是成功的关键:注意力机制和词嵌入。

RLHF三步骤

RLHF用于训练ChatGPT,OpenAI通过三步过程微调 ChatGPT:

初初步 有一批通过工人标注与OpenAI的API请求由取的数据构建成的训练数据集。 然后使用该数据集以监督方式微调预训练模型,生成监督微调 (SFT) 模型。

第二步 围绕偏好排序。标注者(或注释者)的任务是对多个 SFT 模型输出进行投票,从而创建一个由比较数据组成的新数据集。

第三步 及应用强化学习通过奖励模型向 SFT 模型传授人类偏好策略,基本上如上一节所述。 SFT 模型通过奖励模型进行微调。 结果就是所谓的政策模型。

参考

字节跳动李航:对语言大模型的若干观察和思考

大型自然语言模型(LLM)发展与关键技术

相关推荐
玄奕子2 小时前
GPT对话知识库——在STM32的平台下,通过SPI读取和写入Flash的步骤。
stm32·单片机·gpt·嵌入式·嵌入式驱动
XiaoLiuLB2 小时前
ChatGPT Canvas:交互式对话编辑器
人工智能·自然语言处理·chatgpt·编辑器·aigc
BigYe程普2 小时前
我开发了一个出海全栈SaaS工具,还写了一套全栈开发教程
开发语言·前端·chrome·chatgpt·reactjs·个人开发
DuoRuaiMiFa4 小时前
ChatGPT全新功能Canvas上线:开启智能编程与写作新篇章
人工智能·chatgpt
网安-搬运工4 小时前
RAG再总结之如何使大模型更好使用外部数据:四个不同层级及查询-文档对齐策略
人工智能·自然语言处理·大模型·llm·大语言模型·ai大模型·rag
大模型八哥4 小时前
大模型扫盲系列——大模型实用技术介绍(上)
人工智能·程序人生·ai·大模型·llm·llama·ai大模型
创意锦囊6 小时前
ChatGPT推出Canvas功能
人工智能·chatgpt
我爱学Python!1 天前
基于 LangChain 的自动化测试用例的生成与执行
人工智能·自然语言处理·langchain·自动化·llm·测试用例·大语言模型
龙的爹23331 天前
论文翻译 | LLaMA-Adapter :具有零初始化注意的语言模型的有效微调
人工智能·gpt·语言模型·自然语言处理·nlp·prompt·llama