PYTHON+AI LLM DAY FIFITY-TWO

RSTJ_16252026-05-22 12:26

今天简单聊聊自然语言处理(NLP):自然语言处理就是让计算机能够看懂(NLU)和生成(NLG)人类语言的过程.分别衍生出了基于NLU的Bert方向和NLG方向的GPT.在训练模型前需对文本进行预处理.(文本预处理就是文本给到模型前做的所有动作)因为数据决定了模型的上限,指导模型进行超参数选择,也能更好地评估模型.常见文本预处理包括:文本特征处理:增加特征,标准化,归一化,处理缺失值等,数据不均衡:重采样.文本处理基本方法:分词(常用jieba库,也可写入自定义词典),词性标注(POS),命名实体识别(ENR).文本张量表示方法:将一段文本进行张量表示的过程,目的是计算机能够识别,方便进行模型训练.词向量的表示方式:one-hot:一个n*n的单位矩阵.操作简单,便于理解.占用内存太多,容易维度爆炸.word2vec:将单词转化成词向量进行自然语言处理的技术,用深度学习网络来探索单词之间的语义关系,深度学习网络权重参数表示词向量.是无监督语料上构建的有监督任务.用到的两种训练方式:CBOW:简单来说就是根据两头的词预测中间的词,Skip-Gram就是根据中间的词预测两头的词.wordEmbedding:将词映射到指定维度的词向量空间,自定义的神经网络模型,权重和参数参与更新.