机器学习 笔记

特征值提取

字典

from sklearn.extaction import DictVectorizer

m=DictVectorizer(sparse=False)#sparse是否转换成三元组形式

data=[], #传入字典数据

data1=model.fit_transform(data) #使用API

英文特征值提取

from sklearn.feature_extraction.text import CountVectorizer

data=[]

transfer=CountVectorizer(stop_words=])#创建词频提取对象

x=transfer.fit_transform(data)# 提取词频

中文特征值提取

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

import jieba # 导入jieba用于断词中文字符串

import pandas as pd

def text_cut(text):

return "-".join(jieba.cut(text)) # 函数断词

data=[]

data1=(text_cut(i) for i in data) # 推导式

transfer=TfidfVectorizer(stop_words=[])

re=transfer.fit_transform(data1)

data2=pd.DataFrame(data=re.toarray(),columns=transfer.get_feature_names_out())

无量纲化-预处理

归一化

这里的 Xmin 和 Xmax 分别是每种特征中的最小值和最大值,而 ��是当前特征值,Xscaled 是归一化后的特征值。

标准化

相关推荐
weixin_4374977744 分钟前
读书笔记:Context Engineering 2.0 (上)
人工智能·nlp
喝拿铁写前端1 小时前
前端开发者使用 AI 的能力层级——从表面使用到工程化能力的真正分水岭
前端·人工智能·程序员
goodfat1 小时前
Win11如何关闭自动更新 Win11暂停系统更新的设置方法【教程】
人工智能·禁止windows更新·win11优化工具
北京领雁科技1 小时前
领雁科技反洗钱案例白皮书暨人工智能在反洗钱系统中的深度应用
人工智能·科技·安全
落叶,听雪1 小时前
河南建站系统哪个好
大数据·人工智能·python
清月电子1 小时前
杰理AC109N系列AC1082 AC1074 AC1090 芯片停产替代及资料说明
人工智能·单片机·嵌入式硬件·物联网
Dev7z1 小时前
非线性MPC在自动驾驶路径跟踪与避障控制中的应用及Matlab实现
人工智能·matlab·自动驾驶
七月shi人2 小时前
AI浪潮下,前端路在何方
前端·人工智能·ai编程
大数据追光猿2 小时前
【大数据Doris】生产环境,Doris主键模型全表7000万数据更新写入为什么那么慢?
大数据·经验分享·笔记·性能优化·doris
sevenez2 小时前
Vibe Coding 实战笔记:从“修好了C坏了AB”到企业级数据库架构重构
c语言·笔记·数据库架构