一分钟了解大语言模型(LLMs)

一分钟了解大语言模型(LLMs)

A Minute to Know about Large Language Models (LLMs)

By Jackson@ML

自从ChatGPT上线发布以来,在短短的两年多时间里,全球ChatBot(聊天机器人)发展异常迅猛,更为突出的是,生成式人工智能(Generative AI)也广为人知,并上了热搜。

1. 什么是大语言模型?

在生成式人工智能广泛进入人们视野的时候,人工智能的这一特定领域,也迸发出前所未有的生机和活力。

生成式人工智能专注于创建能自主生成新的原创内容,并且无论从生成的高效还是质量方面,都令人敬畏。

大语言模型(Large Language Models, 简称LLMs) ,又称大规模语言模型 或者大模型(依照不同书籍的译者所言),说白了就是一种生成式AI,通俗地说,就是能根据给定的输入(也就是prompts,提示词)生成人类可以理解的文本。

不同大语言模型产品的例子有:OpenAI推出的GPT系列,Gemini系列,Qwen(通义千问)系列等。

2. 大语言模型机理

大语言模型,是基于大量数据预训练的大型深度学习模型。它的底层转换器是一组神经网络,这些神经网络经由具备注意力机制编码器和解码器构成。

编码器和解码器既从一系列文本中提取含义,并理解其中的单词和短语之间的关系。

转换器LLM能进行无监督学习训练,其实,更精确的解释是,转换器可进行自主学习。通过这个过程,转换器可学会理解基本语法、语言和知识。

与早期的循环神经网络(Recurrent Neural Networks, 即RNN) 不同,转换器并行处理整个序列,可让数据科学家使用GPU训练基于转换器的大语言模型,从而大幅度缩短训练时间。

3. 大语言模型的强大功能

大语言模型非常灵活。一个模型可以执行多种不同的任务,例如:回答用户问题,总结文档,翻译语言以及完成语句等;尽管大语言模型可能破坏内容创作,并且使人们依赖搜索引擎和虚拟助手,但LLM表现出的非凡本领,依然为全球用户所痴迷。

LLM仅需用户输入相对较少的提示词,就能输出完整的、系统化的方案并且做出非凡的预测。LLM之所以带来的数据,相当一部分就是根据人类语言输入提示,从而生成内容。

4. 大语言模型的多种应用

LLM有很多不同的实际应用,为人们带来效率提升和系统方案。有以下几方面:

1) 文案写作

除了 GPT-3 和 ChatGPT 之外,Claude、Llama 2、Cohere Command 和 Jurassic 也可编写原件。AI21 Wordspice 建议修改原始语句以改善风格和语音。

2) 知识库回答

知识库问答技术,通常称为知识密集型自然语言处理(KI-NLP),是指可以根据数字存档中的信息帮助回答特定问题的 LLM。AI21 Studio playground 能够回答常识性问题就是此类示例。

3) 文本分类

使用集群,LLM 可以对含义或情绪相似的文本进行分类。用途包括衡量客户情绪、确定文本之间的关系和文档搜索。

4) 代码生成

LLM 擅长根据自然语言提示生成代码。示例包括 Amazon CodeWhisperer 和 GitHub Copilot 中使用的 Open AI Codex,它们可以用 Python、JavaScript、Ruby 和其它编程语言编码。其他编码应用包括创建 SQL 查询、编写 Shell 命令和进行网站设计。了解有关人工智能代码生成的更多信息。

5) 文本生成

与代码生成类似,操作文本生成可以完成不完整的语句,用来编写产品文档,或者像 Alexa Create 一样创作简短的儿童故事。

5. 大语言模型的企业和产品

已经发布的大语言模型企业和产品主要有以下这些:

1) OpenAI的GPT-3, GPT-4

2) Google的BERT, T5和PaLM

3) Meta的LLaMA

4) Microsoft的Turing-NLG

5) Anthropic的Claude

6) DeepMind的Gopher, Chinchilla

7) Cohere的Cohere AI

8) 阿里巴巴的通义千问(Qwen)

9) Hugging Face的BLOOM

10) NVIDIA的Megatron-Turing NLG

11) 腾讯的混元

12) EleutherAI的GPT-Neo, GPT-J

13) SenseTime的SenseChat

14) 清华大学的CPM

15) 北京大学的盘古

16) 复旦大学的MOSS

17) 上海AI Lab的OpenChat

18) IDEA的IDEA-CCNL

等等。

关于大语言模型的资源,应用,开发或者其它场景,还有很多很多。


人工智能技术好文陆续推出,敬请关注、收藏和点赞👍!

您的认可,我的动力!😃

相关阅读:

  1. 一分钟了解深度学习
  2. 一分钟了解manus - 全球首款通用AI Agent
  3. 社交网络分析(SNA)简介
  4. 检索增强生成(RAG)简介
  5. 新一代智能开发环境Trae应用指南
  6. 新一代AI程序开发利器Windsurf应用指南
  7. 新一代Python专业编译器Nuitka应用指南
  8. 新一代AI智能体开发环境Cursor应用指南
  9. 新一代Python包管理器UV应用指南
相关推荐
白白白飘1 分钟前
pytorch 15.1 学习率调度基本概念与手动实现方法
人工智能·pytorch·学习
深度学习入门6 分钟前
机器学习,深度学习,神经网络,深度神经网络之间有何区别?
人工智能·python·深度学习·神经网络·机器学习·机器学习入门·深度学习算法
晨曦54321044 分钟前
中文分词与数据可视化02
自然语言处理·中文分词
张彦峰ZYF1 小时前
走出 Demo,走向现实:DeepSeek-VL 的多模态工程路线图
人工智能
Johny_Zhao1 小时前
Vmware workstation安装部署微软SCCM服务系统
网络·人工智能·python·sql·网络安全·信息安全·微软·云计算·shell·系统运维·sccm
动感光博1 小时前
Unity(URP渲染管线)的后处理、动画制作、虚拟相机(Virtual Camera)
开发语言·人工智能·计算机视觉·unity·c#·游戏引擎
IT古董2 小时前
【漫话机器学习系列】259.神经网络参数的初始化(Initialization Of Neural Network Parameters)
人工智能·神经网络·机器学习
tyatyatya2 小时前
神经网络在MATLAB中是如何实现的?
人工智能·神经网络·matlab
让学习成为一种生活方式2 小时前
大麦(Hordeum vulgare)中 BAHD 超家族酰基转移酶-文献精读129
人工智能