机器学习 笔记

特征值提取

字典

from sklearn.extaction import DictVectorizer

m=DictVectorizer(sparse=False)#sparse是否转换成三元组形式

data=[], #传入字典数据

data1=model.fit_transform(data) #使用API

英文特征值提取

from sklearn.feature_extraction.text import CountVectorizer

data=[]

transfer=CountVectorizer(stop_words=])#创建词频提取对象

x=transfer.fit_transform(data)# 提取词频

中文特征值提取

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

import jieba # 导入jieba用于断词中文字符串

import pandas as pd

def text_cut(text):

return "-".join(jieba.cut(text)) # 函数断词

data=[]

data1=(text_cut(i) for i in data) # 推导式

transfer=TfidfVectorizer(stop_words=[])

re=transfer.fit_transform(data1)

data2=pd.DataFrame(data=re.toarray(),columns=transfer.get_feature_names_out())

无量纲化-预处理

归一化

这里的 Xmin 和 Xmax 分别是每种特征中的最小值和最大值,而 ��是当前特征值,Xscaled 是归一化后的特征值。

标准化

相关推荐
裤裤兔4 分钟前
CNN和RNN结合提升分类效果
人工智能·rnn·神经网络·分类·cnn·医学图像处理
IT_陈寒4 分钟前
Vue3 性能优化实战:从10秒到1秒的5个关键技巧,让你的应用飞起来!
前端·人工智能·后端
还是大剑师兰特6 分钟前
AI智慧农业20强
人工智能·思维导图·大剑师
呱呱巨基7 分钟前
C++ 红黑树
数据结构·c++·笔记·学习
TL滕8 分钟前
从0开始学算法——第十三天(Rabin-Karp 算法)
笔记·学习·算法
永远都不秃头的程序员(互关)8 分钟前
人工智能深度学习实战:手写数字识别指南
人工智能
BJ_Bonree16 分钟前
Bonree ONE 发布直通车| 如何利用核心链路,快速排查定位系统故障?
大数据·运维·人工智能
weixin_4462608517 分钟前
八、微调后模型使用及效果验证-1
前端·人工智能·chrome·微调模型
ccLianLian23 分钟前
CorrCLIP
人工智能·计算机视觉
科士威传动23 分钟前
微型导轨的类型性能差异与场景适配需求
大数据·运维·人工智能·科技·机器人·自动化