今天简单聊聊自然语言处理(NLP):自然语言处理就是让计算机能够看懂(NLU)和生成(NLG)人类语言的过程.分别衍生出了基于NLU的Bert方向和NLG方向的GPT.在训练模型前需对文本进行预处理.(文本预处理就是文本给到模型前做的所有动作)因为数据决定了模型的上限,指导模型进行超参数选择,也能更好地评估模型.常见文本预处理包括:文本特征处理:增加特征,标准化,归一化,处理缺失值等,数据不均衡:重采样.文本处理基本方法:分词(常用jieba库,也可写入自定义词典),词性标注(POS),命名实体识别(ENR).文本张量表示方法:将一段文本进行张量表示的过程,目的是计算机能够识别,方便进行模型训练.词向量的表示方式:one-hot:一个n*n的单位矩阵.操作简单,便于理解.占用内存太多,容易维度爆炸.word2vec:将单词转化成词向量进行自然语言处理的技术,用深度学习网络来探索单词之间的语义关系,深度学习网络权重参数表示词向量.是无监督语料上构建的有监督任务.用到的两种训练方式:CBOW:简单来说就是根据两头的词预测中间的词,Skip-Gram就是根据中间的词预测两头的词.wordEmbedding:将词映射到指定维度的词向量空间,自定义的神经网络模型,权重和参数参与更新.
相关推荐
阳光是sunny8 小时前
别再被 worktree 绕晕了!AI 编程时代你必须掌握的 Git 隔离神器冬奇Lab8 小时前
每日一个开源项目(第148篇):obsidian-skills - Obsidian CEO 亲写的 AI Agent 格式规范,让 Agent 不再破坏你的 Vaultethantan8 小时前
AI Agent 组成:像人一样思考的智能体冬奇Lab8 小时前
Workflow 系列(05):评测体系——三层测试结构与 Trace 追踪ethantan9 小时前
一篇讲解AI Agent 组成:像人一样思考的智能体Cosolar11 小时前
vLLM 生产级部署完全指南CodePlayer竟然被占用了11 小时前
被美国政府封杀18天,Claude Fable 5 回来了——但代价是什么?IT_陈寒12 小时前
垃圾回收器选错了,我的Java服务内存炸了smartpi12 小时前
SmartPi GPIO 脉冲与回复语执行时序指南阿里云大数据AI技术13 小时前
PAI支持一键部署GLM-5.2,Coding能力比肩Claude Opus 4.8