机器学习 笔记

特征值提取

字典

from sklearn.extaction import DictVectorizer

m=DictVectorizer(sparse=False)#sparse是否转换成三元组形式

data=[], #传入字典数据

data1=model.fit_transform(data) #使用API

英文特征值提取

from sklearn.feature_extraction.text import CountVectorizer

data=[]

transfer=CountVectorizer(stop_words=])#创建词频提取对象

x=transfer.fit_transform(data)# 提取词频

中文特征值提取

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

import jieba # 导入jieba用于断词中文字符串

import pandas as pd

def text_cut(text):

return "-".join(jieba.cut(text)) # 函数断词

data=[]

data1=(text_cut(i) for i in data) # 推导式

transfer=TfidfVectorizer(stop_words=[])

re=transfer.fit_transform(data1)

data2=pd.DataFrame(data=re.toarray(),columns=transfer.get_feature_names_out())

无量纲化-预处理

归一化

这里的 Xmin 和 Xmax 分别是每种特征中的最小值和最大值,而 ��是当前特征值,Xscaled 是归一化后的特征值。

标准化

相关推荐
Deepoch1 分钟前
硬件赋能智能:Deepoc开发板如何成为无人机自主飞行的核心引擎
人工智能·无人机·具身模型·deepoc
综合热讯3 分钟前
为数字时代的绘画学习建立清晰路径:四川涂色教育科技有限公司的教学实践
人工智能
GitCode官方4 分钟前
G-Star 精选开源项目推荐|第三期
人工智能·开源·atomgit
江上鹤.1485 分钟前
Day48TensorBoard使用
人工智能·深度学习·机器学习
灰灰勇闯IT7 分钟前
放弃 HarmonyOS 7?OpenHarmony 6.1 LTS 版本适配指南(含老机型兼容技巧)
人工智能·计算机视觉·harmonyos
DX_水位流量监测8 分钟前
地埋式积水监测仪:城市防涝的智能感知核心
大数据·网络·人工智能·数据分析·自动化
会思考的猴子8 分钟前
UE5 笔记二 GameplayAbilitySystem Dash(冲刺)
笔记·ue5
武子康10 分钟前
大数据-196 scikit-learn KNN 实战:KNeighborsClassifier、kneighbors 与学习曲线选最优 案例1红酒 案例2乳腺
大数据·后端·机器学习
TM1Club11 分钟前
Zoey的TM1聊天室|#3 合并报表提速:业财一体如何实现关联方对账自动化
大数据·开发语言·人工智能·经验分享·数据分析·自动化·数据库系统
禾高网络12 分钟前
互联网医院系统|禾高互联网医院|互联网医院成品
java·大数据·人工智能