AIGC:LLM大型语言模型是怎么交流的? ———分词

前言

今天我们来聊聊什么是LLM,LLM又是怎么交流的呢?

准备工作

通过 Google Colab,用户可以创建和共享Jupyter笔记本,运行Python代码,访问云端计算资源,以及使用大量开源机器学习框架和库,而无需担心硬件或软件配置问题。

LLM

"LLM" 是 "Large Language Model" 的缩写,翻译过来就是"大型语言模型"。这一术语通常用来描述在自然语言处理(NLP)领域中的一类强大的神经网络模型,这些模型在大规模文本数据上进行预训练,然后可以用于各种自然语言理解和生成任务。

这类大型语言模型具有很高的参数数量,通常拥有数亿甚至数十亿的参数。由于这些模型规模庞大,能够学习到丰富的语言表示,包括词汇、语法、语义等方面的知识。它们在理解和生成自然语言方面的表现十分强大,可以执行诸如文本生成、机器翻译、问答系统等任务。

一些知名的大型语言模型包括:

  1. GPT-3(Generative Pre-trained Transformer 3): 由 OpenAI 开发的模型,拥有 1750 亿个参数。它是目前公开可用的最大的语言模型之一。
  2. BERT(Bidirectional Encoder Representations from Transformers): 由Google开发,采用双向 Transformer 编码器,用于预训练自然语言理解任务。
  3. T5(Text-To-Text Transfer Transformer): 由Google开发,使用统一的文本输入输出框架,适用于各种自然语言处理任务。

这些大型语言模型在推动自然语言处理领域的研究和应用方面发挥了关键作用,它们能够从海量的文本数据中学到通用的语言表示,使得它们在各种自然语言任务中都能够表现出色。

分词

计算机怎么样理解我们句子中的结构和含义呢?通过分词

在自然语言处理中,分词是将文本分割成有意义的最小单元(词)的过程。对于大型语言模型(LLM),分词是模型在理解和处理文本时的一个重要步骤。不同的语言和模型可能使用不同的分词方法。

但我们在使用大型语言模型(LLM)时,通常无需手动执行分词步骤,因为这些模型在训练阶段已经学习了丰富的语言知识,包括词汇和语法。你可以直接将原始文本传递给模型,而模型会自动处理分词。例如,使用 OpenAI 的 GPT-3 模型,你可以直接提供自然语言的文本,而无需显式进行分词。

接下来我们来看看如何进行分词

我们进入Google Colab网站,将代码放进此网站运行。这个网站十分的方便,当我们使用Google Colab 运行python时,可以不用担心配置环境。

点击文件-> 新建笔记本 点击左上角 +代码

输入pip install transformers, 安装transformer包

当左下角出现Successfully说明安装成功

输入:

python 复制代码
from transformers import AutoTokenizer
sens="来颗奇趣蛋,我要找一个好工作"  # 人类语言 -> LLM
tokenizer = AutoTokenizer.from_pretrained('uer/roberta-base-finetuned-dianping-chinese')
tokenizer

使用 Hugging Face 的 transformers 库中的 AutoTokenizer 类来加载一个预训练的中文 RoBERTa 模型(uer/roberta-base-finetuned-dianping-chinese),并使用它对输入文本进行分词(tokenization)。

输入:

python 复制代码
tokens = tokenizer.tokenize(sens)
tokens

tokenizer.tokenize(sens):调用分词器的 tokenize 方法,将输入的文本进行分词处理

输入:tokenizer.vocab

  • vocab:这是分词器的一个属性,表示词汇表。词汇表是模型训练时学到的所有单词、子词或标记的集合。对于预训练的语言模型,词汇表是在大规模文本数据上学到的,并包含了模型在训练过程中遇到的所有单词和标记。

使用 tokenizer.vocab 可以获取分词器使用的词汇表,你可以查看其中包含的单词、标记以及它们在词汇表中的索引等信息。

使用了分词器(tokenizer)将文本转换成模型可以理解的表示形式,其中涉及了将 tokens 转换成对应的 token IDs

输入:

python 复制代码
str_len = tokenizer.decode(ids, skip_special_tokens=False)
str_len

使用了分词器(tokenizer)将通过编码得到的 token IDs 转换回原始的文本形式

今天的内容就到这啦,如果你觉得小编写的还不错的话,或者对你有所启发,请给小编一个辛苦的赞吧

相关推荐
OpenVINO 中文社区2 分钟前
OpenVINO™正式进入 llama.cpp:GGUF 模型现已支持 Intel CPU、GPU 与 NPU
人工智能·openvino·英特尔
ZKNOW甄知科技7 分钟前
数智同行:甄知科技2026年Q1季度回顾
运维·服务器·人工智能·科技·程序人生·安全·自动化
呆呆敲代码的小Y8 分钟前
【Unity工具篇】| 游戏完整资源热更新流程,YooAsset官方示例项目
人工智能·游戏·unity·游戏引擎·热更新·yooasset·免费游戏
gelald8 分钟前
Spring Boot - 自动配置原理
java·spring boot·后端
jikemaoshiyanshi9 分钟前
B2B企业GEO服务商哪家好?深度解析径硕科技(JINGdigital)及其JINGEO产品为何是首选
大数据·运维·人工智能·科技
Lab_AI9 分钟前
浩天药业携手创腾科技,开启研发数字化新篇章!电子实验记录本(ELN)落地浩天药业
人工智能
supericeice11 分钟前
大模型建筑隐患管理方案怎么做?创邻科技用知识图谱、图数据库和企业AI大脑打通隐患问答、整改与推荐
人工智能·科技·知识图谱
蕤葳-14 分钟前
非编程背景学习AI的方法
人工智能
北京耐用通信17 分钟前
不换设备、不重写程序:耐达讯自动化网关如何实现CC-Link IE转Modbus TCP的高效互通?
人工智能·科技·物联网·网络协议·自动化·信息与通信
计算机毕业设计指导18 分钟前
基于机器学习和深度学习的恶意WebURL检测系统实战详解
人工智能·深度学习·机器学习·网络安全