PYTHON+AI LLM DAY FIFITY-TWO

今天简单聊聊自然语言处理(NLP):自然语言处理就是让计算机能够看懂(NLU)和生成(NLG)人类语言的过程.分别衍生出了基于NLU的Bert方向和NLG方向的GPT.在训练模型前需对文本进行预处理.(文本预处理就是文本给到模型前做的所有动作)因为数据决定了模型的上限,指导模型进行超参数选择,也能更好地评估模型.常见文本预处理包括:文本特征处理:增加特征,标准化,归一化,处理缺失值等,数据不均衡:重采样.文本处理基本方法:分词(常用jieba库,也可写入自定义词典),词性标注(POS),命名实体识别(ENR).文本张量表示方法:将一段文本进行张量表示的过程,目的是计算机能够识别,方便进行模型训练.词向量的表示方式:one-hot:一个n*n的单位矩阵.操作简单,便于理解.占用内存太多,容易维度爆炸.word2vec:将单词转化成词向量进行自然语言处理的技术,用深度学习网络来探索单词之间的语义关系,深度学习网络权重参数表示词向量.是无监督语料上构建的有监督任务.用到的两种训练方式:CBOW:简单来说就是根据两头的词预测中间的词,Skip-Gram就是根据中间的词预测两头的词.wordEmbedding:将词映射到指定维度的词向量空间,自定义的神经网络模型,权重和参数参与更新.

相关推荐
秋92 小时前
从 Python 后端工程师转型 AI Engineer(AI 工程化)的完整补课清单(2026实战版)
开发语言·人工智能·python
啦啦啦_99993 小时前
5. 迁移学习
人工智能·机器学习·迁移学习
A.说学逗唱的Coke3 小时前
【AI·Coding】TDD × SDD × AI Coding:从“测试驱动“到“规范驱动“的智能协作实践
人工智能·驱动开发·tdd
云烟成雨TD3 小时前
Spring AI Alibaba 1.x 系列【78】沙箱(Sandbox)
java·人工智能·spring
tq10863 小时前
基于SLIP的防幻觉的指南
人工智能
甲维斯4 小时前
Kimi版超级玛丽效果“惊人”,配额不足5厘米!
前端·人工智能
console.log('npc')4 小时前
AI前端工程与生成式UI学习路线
前端·人工智能·ui
秋95 小时前
3年经验Python后端转AI Engineer:3个月实战转型计划(2026版)
开发语言·人工智能·python
圣殿骑士-Khtangc5 小时前
GPT-5.5 技术深度解析与企业级生产落地实战:从幻觉率下降到百万Token工程化
人工智能·gpt
2601_961963385 小时前
技术解剖:哈希值、区块链与CA认证如何守护电子合同安全?
网络·人工智能·安全·区块链·智能合约·政务