一分钟了解大语言模型(LLMs)

一分钟了解大语言模型(LLMs)

A Minute to Know about Large Language Models (LLMs)

By Jackson@ML

自从ChatGPT上线发布以来,在短短的两年多时间里,全球ChatBot(聊天机器人)发展异常迅猛,更为突出的是,生成式人工智能(Generative AI)也广为人知,并上了热搜。

1. 什么是大语言模型?

在生成式人工智能广泛进入人们视野的时候,人工智能的这一特定领域,也迸发出前所未有的生机和活力。

生成式人工智能专注于创建能自主生成新的原创内容,并且无论从生成的高效还是质量方面,都令人敬畏。

大语言模型(Large Language Models, 简称LLMs) ,又称大规模语言模型 或者大模型(依照不同书籍的译者所言),说白了就是一种生成式AI,通俗地说,就是能根据给定的输入(也就是prompts,提示词)生成人类可以理解的文本。

不同大语言模型产品的例子有:OpenAI推出的GPT系列,Gemini系列,Qwen(通义千问)系列等。

2. 大语言模型机理

大语言模型,是基于大量数据预训练的大型深度学习模型。它的底层转换器是一组神经网络,这些神经网络经由具备注意力机制编码器和解码器构成。

编码器和解码器既从一系列文本中提取含义,并理解其中的单词和短语之间的关系。

转换器LLM能进行无监督学习训练,其实,更精确的解释是,转换器可进行自主学习。通过这个过程,转换器可学会理解基本语法、语言和知识。

与早期的循环神经网络(Recurrent Neural Networks, 即RNN) 不同,转换器并行处理整个序列,可让数据科学家使用GPU训练基于转换器的大语言模型,从而大幅度缩短训练时间。

3. 大语言模型的强大功能

大语言模型非常灵活。一个模型可以执行多种不同的任务,例如:回答用户问题,总结文档,翻译语言以及完成语句等;尽管大语言模型可能破坏内容创作,并且使人们依赖搜索引擎和虚拟助手,但LLM表现出的非凡本领,依然为全球用户所痴迷。

LLM仅需用户输入相对较少的提示词,就能输出完整的、系统化的方案并且做出非凡的预测。LLM之所以带来的数据,相当一部分就是根据人类语言输入提示,从而生成内容。

4. 大语言模型的多种应用

LLM有很多不同的实际应用,为人们带来效率提升和系统方案。有以下几方面:

1) 文案写作

除了 GPT-3 和 ChatGPT 之外,Claude、Llama 2、Cohere Command 和 Jurassic 也可编写原件。AI21 Wordspice 建议修改原始语句以改善风格和语音。

2) 知识库回答

知识库问答技术,通常称为知识密集型自然语言处理(KI-NLP),是指可以根据数字存档中的信息帮助回答特定问题的 LLM。AI21 Studio playground 能够回答常识性问题就是此类示例。

3) 文本分类

使用集群,LLM 可以对含义或情绪相似的文本进行分类。用途包括衡量客户情绪、确定文本之间的关系和文档搜索。

4) 代码生成

LLM 擅长根据自然语言提示生成代码。示例包括 Amazon CodeWhisperer 和 GitHub Copilot 中使用的 Open AI Codex,它们可以用 Python、JavaScript、Ruby 和其它编程语言编码。其他编码应用包括创建 SQL 查询、编写 Shell 命令和进行网站设计。了解有关人工智能代码生成的更多信息。

5) 文本生成

与代码生成类似,操作文本生成可以完成不完整的语句,用来编写产品文档,或者像 Alexa Create 一样创作简短的儿童故事。

5. 大语言模型的企业和产品

已经发布的大语言模型企业和产品主要有以下这些:

1) OpenAI的GPT-3, GPT-4

2) Google的BERT, T5和PaLM

3) Meta的LLaMA

4) Microsoft的Turing-NLG

5) Anthropic的Claude

6) DeepMind的Gopher, Chinchilla

7) Cohere的Cohere AI

8) 阿里巴巴的通义千问(Qwen)

9) Hugging Face的BLOOM

10) NVIDIA的Megatron-Turing NLG

11) 腾讯的混元

12) EleutherAI的GPT-Neo, GPT-J

13) SenseTime的SenseChat

14) 清华大学的CPM

15) 北京大学的盘古

16) 复旦大学的MOSS

17) 上海AI Lab的OpenChat

18) IDEA的IDEA-CCNL

等等。

关于大语言模型的资源,应用,开发或者其它场景,还有很多很多。


人工智能技术好文陆续推出,敬请关注、收藏和点赞👍!

您的认可,我的动力!😃

相关阅读:

  1. 一分钟了解深度学习
  2. 一分钟了解manus - 全球首款通用AI Agent
  3. 社交网络分析(SNA)简介
  4. 检索增强生成(RAG)简介
  5. 新一代智能开发环境Trae应用指南
  6. 新一代AI程序开发利器Windsurf应用指南
  7. 新一代Python专业编译器Nuitka应用指南
  8. 新一代AI智能体开发环境Cursor应用指南
  9. 新一代Python包管理器UV应用指南
相关推荐
HyperAI超神经几秒前
在线教程|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁
开发语言·人工智能·深度学习·神经网络·机器学习·ocr·创业创新
JoySSLLian14 分钟前
手把手教你安装免费SSL证书(附宝塔/Nginx/Apache配置教程)
网络·人工智能·网络协议·tcp/ip·nginx·apache·ssl
BestSongC15 分钟前
行人摔倒检测系统 - 前端文档(1)
前端·人工智能·目标检测
模型时代22 分钟前
Anthropic明确拒绝在Claude中加入广告功能
人工智能·microsoft
夕小瑶25 分钟前
OpenClaw、Moltbook爆火,算力如何48小时内扩到1900张卡
人工智能
一枕眠秋雨>o<27 分钟前
透视算力:cann-tools如何让AI性能调优从玄学走向科学
人工智能
那个村的李富贵41 分钟前
昇腾CANN跨行业实战:五大新领域AI落地案例深度解析
人工智能·aigc·cann
集简云-软件连接神器44 分钟前
技术实战:集简云语聚AI实现小红书私信接入AI大模型全流程解析
人工智能·小红书·ai客服
松☆44 分钟前
深入理解CANN:面向AI加速的异构计算架构
人工智能·架构
rainbow72424444 分钟前
无基础学AI的入门核心,从基础工具和理论开始学
人工智能