今天简单聊聊自然语言处理(NLP):自然语言处理就是让计算机能够看懂(NLU)和生成(NLG)人类语言的过程.分别衍生出了基于NLU的Bert方向和NLG方向的GPT.在训练模型前需对文本进行预处理.(文本预处理就是文本给到模型前做的所有动作)因为数据决定了模型的上限,指导模型进行超参数选择,也能更好地评估模型.常见文本预处理包括:文本特征处理:增加特征,标准化,归一化,处理缺失值等,数据不均衡:重采样.文本处理基本方法:分词(常用jieba库,也可写入自定义词典),词性标注(POS),命名实体识别(ENR).文本张量表示方法:将一段文本进行张量表示的过程,目的是计算机能够识别,方便进行模型训练.词向量的表示方式:one-hot:一个n*n的单位矩阵.操作简单,便于理解.占用内存太多,容易维度爆炸.word2vec:将单词转化成词向量进行自然语言处理的技术,用深度学习网络来探索单词之间的语义关系,深度学习网络权重参数表示词向量.是无监督语料上构建的有监督任务.用到的两种训练方式:CBOW:简单来说就是根据两头的词预测中间的词,Skip-Gram就是根据中间的词预测两头的词.wordEmbedding:将词映射到指定维度的词向量空间,自定义的神经网络模型,权重和参数参与更新.
相关推荐
陈天伟教授1 小时前
图解人工智能(32)深度学习前沿Ting-yu1 小时前
Spring AI Alibaba零基础速成(5) ---- Memory(记忆)幂律智能1 小时前
从AI使用风险到合同智能审查重构企业风控能力视***间1 小时前
端侧大模型落地新标杆:视程空间将GPT-OSS边缘AI深度导入NVIDIA Jetson平台189228048611 小时前
NY379固态MT29F32T08GSLBHL8-36QA:BAdair_z1 小时前
[SEO艺术重读] 第9篇 熊猫算法、企鹅算法和惩罚机制ZZH_AI项目交付1 小时前
我把 AI 最容易改坏真实 App 的地方,整理成了 skills忆~遂愿1 小时前
从文字应答到具象共情:Agent 交互的底层革新Ai.den1 小时前
Windows 安装 MinerU 3.x 实现本地批量解析 PDF