自然语言NLP学习

2-7 门控循环单元(GRU)_哔哩哔哩_bilibili

GRU LSTM

双向RNN

CNN 卷积神经网络

输入层 转化为向量表示

dropout

ppl

标量

在物理学和数学中,标量(Scalar)是一个只有大小、没有方向的量。它只用一个数值就可以完全描述,且满足交换律。例如,质量、温度、时间、体积、密度、功、能量等都是标量。

在向量代数中,标量与向量是相对的概念,标量可以与向量相乘,从而改变向量的长度但不改变其方向。例如,在三维空间中,如果一个向量的长度为3,一个标量为2,那么这个标量乘以向量的结果将得到一个长度为6,方向不变的新向量。

注意力分数

隐向量

隐向量(Latent Vector)是机器学习和深度学习中一个重要的概念,特别是在自然语言处理、推荐系统、图像识别等领域。隐向量是用来表示复杂数据的一种低维实数向量,它通过训练学习到的,并试图捕捉原始高维数据中的潜在结构和语义信息。

在推荐系统中:

  • 隐向量通常用来表示用户和物品(如电影、音乐等),每个用户和每件物品都被映射到一个固定维度的向量空间中。
  • 例如,在因子分解机(FM,Factorization Machines)模型中,各个特征(比如用户ID或商品ID)对应的隐向量可以通过矩阵分解得到,这些隐向量的内积可以用来预测用户对商品的评分或者偏好。

在自然语言处理中:

  • 单词或文档也可以用隐向量来表示,这种表示方法常被称为词嵌入(Word Embeddings),如Word2Vec、GloVe等模型生成的向量。
  • 这些隐向量可以捕获单词之间的语义相似性,使得在向量空间中距离相近的单词具有类似的含义。

在深度学习架构中:

  • 在神经网络中,Embedding层就是用来将离散的高维输入(如one-hot编码)转换为连续的低维隐向量,以便进行后续的计算和模式挖掘。

总的来说,隐向量是一种压缩和抽象的表示形式,它有助于模型理解和处理高维稀疏数据,并能够发现数据内部隐藏的模式和联系。

softmax函数是一种在机器学习和深度学习中广泛使用的归一化指数函数,主要用于多分类问题的输出层计算预测类别概率分布。

激活函数

注意力机制解决信息瓶颈问题

Transformer

BPE

交叉熵

正则化

加权平均是一种统计方法,用于计算一组数值的平均值时,考虑到每个数值的重要性(权重)不同。在普通平均数中,所有数据点都同等重要,而在加权平均中,每个数据点有一个与其对应的权重值,这个权重反映了该数据点在最终结果中的相对影响程度。

加权平均的计算公式为:

加权平均数=∑(每个数据值×对应权重)∑(所有权重)加权平均数=∑(所有权重)∑(每个数据值×对应权重)​

例如,在学校教育场景中,一个学生的学期总评成绩可能由平时测验、期中考试和期末考试的成绩按不同比例(权重)综合得出:

  • 平时测验:80 分,权重 20%
  • 期中考试:90 分,权重 30%
  • 期末考试:95 分,权重 50%

那么,该学生的学期总评成绩可以通过以下步骤计算:

学期总评成绩=(80×0.2)+(90×0.3)+(95×0.5)0.2+0.3+0.5学期总评成绩=0.2+0.3+0.5(80×0.2)+(90×0.3)+(95×0.5)​

此外,在财务领域,加权平均法常用于库存管理,计算存货的单位成本。例如,考虑一段时间内多次购入商品的情况,每次购入的数量和单价不同,这时会根据各批次进货的数量(作为权重)和其相应的单价来计算整个库存的平均单位成本。

3-13 预训练语言模型--PLM介绍_哔哩哔哩_bilibili

预训练

预训练语言模型

Transformers

PyTorch

fine-tune

"微调"(fine-tune)的具体含义略有不同,但核心都是对已有的事物进行精细化调整和优化:

  1. 在机器学习和人工智能领域,微调通常是指对预训练模型的参数进行进一步调整。例如,在深度学习中,我们可能首先采用一个已经在大规模数据集上预训练好的模型,然后将其应用到特定任务上时,针对这个特定任务的数据进行再次训练,通过调整部分或全部模型参数,使得模型能够更好地适应新任务的需求,从而提升模型在新任务上的性能。

load metric

3-20 Transformers教程--Demo讲解_哔哩哔哩_bilibili 重点看下

4-1 课程内容介绍_哔哩哔哩_bilibili

4-2 Prompt-Learning和Delta-Tuning--背景和概览_哔哩哔哩_bilibili

representation

在自然语言处理(NLP)和机器学习中,representation(表示法或表征)特指将语言中的单词、短语、句子或文档转化为计算机可以理解与操作的形式。这个过程是模型理解和生成自然语言的关键步骤。

在语言模型中,representation通常是指:

  • 词嵌入(Word Embedding):这是一种将每个单词映射到一个固定维度向量空间的技术,如Word2Vec、GloVe或BERT等预训练模型所生成的词向量,使得语义相近的词在向量空间上距离较近。

  • 上下文相关的表示(Contextual Representation):比如Transformer架构中的BERT和GPT系列模型产生的表示,它们不仅能捕捉单个词的一般含义,还能考虑词语在具体上下文环境下的含义变化,生成动态的上下文嵌入。

这些表示被用于各种下游NLP任务,如情感分析、命名实体识别、问答系统等,通过学习到的有效数据表示,模型能够更好地理解和推断文本信息。

sequence to sequence

Sequence to Sequence(简称Seq2Seq)是一种在自然语言处理和机器学习领域广泛应用的模型架构,主要用于处理输入和输出都是变长序列的任务。中文可以解释为"序列到序列"或"顺序到顺序"。

具体来说,Seq2Seq模型设计用于将一个输入序列(比如一段文本)通过神经网络转换成另一个不同长度的输出序列(比如翻译后的另一段文本)。这种模型通常包含两个主要部分:编码器(Encoder)和解码器(Decoder)。

  • 编码器负责读取并理解输入序列的信息,并将其压缩成一个固定维度的向量(称为上下文向量),这个向量包含了输入序列的整体语义信息。

  • 解码器则依据该上下文向量逐步生成目标序列,每次生成一个元素(如一个词或子词单元),直到生成结束标记或者达到预设的最大长度。

Seq2Seq模型常应用于机器翻译、文本摘要、对话系统、语音识别转文字等场景中。随着注意力机制(Attention Mechanism)的发展,Seq2Seq模型能够更灵活地处理源序列和目标序列之间的依赖关系,进一步提升模型性能。

相关推荐
漏刻有时1 分钟前
微信小程序学习实录9:掌握wx.chooseMedia实现多图片文件上传功能(选择图片、预览图片、上传图片)
学习·微信小程序·notepad++
新缸中之脑6 分钟前
Llama 3.2 安卓手机安装教程
前端·人工智能·算法
人工智障调包侠7 分钟前
基于深度学习多层感知机进行手机价格预测
人工智能·python·深度学习·机器学习·数据分析
大霞上仙1 小时前
jmeter学习(7)beanshell
学习·jmeter
大霞上仙1 小时前
jmeter学习(1)线程组与发送请求
java·学习·jmeter
开始King1 小时前
Tensorflow2.0
人工智能·tensorflow
Elastic 中国社区官方博客1 小时前
Elasticsearch 开放推理 API 增加了对 Google AI Studio 的支持
大数据·数据库·人工智能·elasticsearch·搜索引擎
望森FPGA1 小时前
HDLBits中文版,标准参考答案 |2.5 More Verilog Features | 更多Verilog 要点
学习·fpga开发
infominer1 小时前
RAGFlow 0.12 版本功能导读
人工智能·开源·aigc·ai-native
涩即是Null1 小时前
如何构建LSTM神经网络模型
人工智能·rnn·深度学习·神经网络·lstm