nlp自然语言处理

NLP

nlp自然语言处理(不一定是文本,图形也可以)接入深度学习(向量处理),需要把文字等内容转换成向量输入

深度学习分为有监督和无监督学习两类,对应分类和生成算法都是向量输入

词嵌入(映射到向量)

词嵌入最简单的模型是one-hot,但数据计算量太大,所以后续更多的是减少数据量和建立关联性

  • one-hot,最简单分类(单位矩阵),无法识别词之间的相似性,维度高计算量大(10w个词,需要10w个维度)
  • word2vector包含两个算法
  1. skip-gram,跳字模型:中心词预测背景词
  2. cbow,连续词袋模型:背景词预测中心词

输入one-hot输出概率分布,词向量隐藏层输出(非最终输出)

词向量纬度:w(词数量)*v(隐藏层输出)

word2vector通过分析词语的常用组合得到词语的分类信息,类似词语填空

word2vector依赖局部统计信息、对全局缺少依赖

python 复制代码
import tensorflow as tf

# 假设vocab_size = 1000
VOCAB_SIZE = 1000
# 假设embedding_size = 300
EMBEDDINGS_SIZE = 300

# 输入单词x是一个[1,vocab_size]大小的矩阵。当然实际上我们一般会用一批单词作为输入,那么就是[N, vocab_size]的矩阵了
x = tf.placeholder(tf.float32, shape=(1,VOCAB_SIZE))
# W1是一个[vocab_size, embedding_size]大小的矩阵
W1 = tf.Variable(tf.random_normal([VOCAB_SIZE, EMBEDDING_SIZE]))
# b1是一个[1,embedding_size]大小的矩阵
b1 = tf.Variable(tf.random_normal([EMBEDDING_SIZE]))
# 简单的矩阵乘法和加法
hidden = tf.add(tf.mutmul(x,W1),b1)

W2 = tf.Variable(tf.random_normal([EMBEDDING_SIZE,VOCAB_SIZE]))
b2 = tf.Variable(tf.random_normal([VOCAB_SIZE]))
# 输出是一个vocab_size大小的矩阵,每个值都是一个词的概率值
prediction = tf.nn.softmax(tf.add(tf.mutmul(hidden,w2),b2))
# 损失函数 
cross_entropy_loss = tf.reduce_mean(-tf.reduce_sum(y_label * tf.log(prediction), reduction_indices=[1]))
# 训练操作
train_op = tf.train.GradientDescentOptimizer(0.1).minimize(cross_entropy_loss)
  • FastText算法库,速度极快类似cbow,预测目标类别而非word2vector的目标词
  • glove,在word2vector的基础上,统计同一词在一个上下文出现后在另一个上下文出现的概率

词向量输出位,共现方阵大小v*v(隐藏层输出)

  • bert
  • 知识图谱,rdf三元组(包含两点一线的结构)、neo4j

图嵌入

类似词嵌入的方式,可以在分类算法中,把隐藏层输出作为图嵌入的表征

向量相似度

  • 使用向量的模,点的距离
  • 余弦夹角,one-hot向量的相似度0,适用于方向上的差异对大小不敏感的,类似用户评分等。

向量的存储

  • elasticsearch
  • 向量数据库
  • Faiss
  • Annoy

语言模型

  • seq2seq
  • transfomer

输入词向量,通过输出词向量

encoder=》decoder模型

  • bert,预训练模型

nltk工具

相关推荐
Ricky_yyy6 小时前
GLM架构深度解读:清华大模型的核心技术
人工智能·深度学习·glm
MemoriKu6 小时前
Flutter 相册 APP 视频模态稳定化实战:从远端重构冲突到真机 Smoke Test
人工智能·python·flutter·机器学习·重构·音视频·新人首发
谷歌玩家6 小时前
人工智能、机器学习、生成式AI、神经网络、Transformer 概念梳理
人工智能
一切皆是因缘际会6 小时前
因果推理人工智能
大数据·数据结构·人工智能
AI原来如此6 小时前
Claude Opus与GPT-5激战,国内API中转站如何应对2026模型迭代潮?
大数据·人工智能·gpt·ai·大模型·ai编程
好评笔记6 小时前
深度学习面试八股—— GRU(Gated Recurrent Unit)
人工智能·rnn·深度学习·算法·机器学习·gru·校招
comcoo6 小时前
避坑指南:OpenClaw v2.7.9 Windows/macOS 零基础安装全过程
人工智能·windows·macos·github·开源软件·open claw·open claw部署包
南檐巷上学6 小时前
基于改进型CNN神经网络的车牌定位识别系统(Matlab)
人工智能·神经网络·matlab·cnn·车牌识别·vgg
3DVisionary6 小时前
模具电极3D检测真实案例:手机后盖注塑模石墨电极全流程实录
人工智能·3d·智能手机·案例分析·蓝光三维扫描·模具检测·石墨电极
AI人工智能+6 小时前
往来港澳通行证识别系统,深度融合计算机视觉与自然语言处理,为“智慧口岸”和“数字政务”提供了强有力的技术支撑
人工智能·深度学习·ocr·往来港澳通行证识别