机器学习 笔记

特征值提取

字典

from sklearn.extaction import DictVectorizer

m=DictVectorizer(sparse=False)#sparse是否转换成三元组形式

data=[], #传入字典数据

data1=model.fit_transform(data) #使用API

英文特征值提取

from sklearn.feature_extraction.text import CountVectorizer

data=[]

transfer=CountVectorizer(stop_words=])#创建词频提取对象

x=transfer.fit_transform(data)# 提取词频

中文特征值提取

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

import jieba # 导入jieba用于断词中文字符串

import pandas as pd

def text_cut(text):

return "-".join(jieba.cut(text)) # 函数断词

data=[]

data1=(text_cut(i) for i in data) # 推导式

transfer=TfidfVectorizer(stop_words=[])

re=transfer.fit_transform(data1)

data2=pd.DataFrame(data=re.toarray(),columns=transfer.get_feature_names_out())

无量纲化-预处理

归一化

这里的 Xmin 和 Xmax 分别是每种特征中的最小值和最大值,而 ��是当前特征值,Xscaled 是归一化后的特征值。

标准化

相关推荐
zhmc7 小时前
常用周期函数的傅里叶级数
人工智能·算法
万岳科技程序员小金7 小时前
低成本开发考试刷题APP/小程序:在线教育系统源码的正确打开方式
人工智能·在线教育系统源码·教育app开发·教育软件开发·教育小程序开发·刷题考试系统源码·刷题考试小程序
中国云报7 小时前
Why Not?亚马逊云科技以AI全栈革新解锁数智化新可能
大数据·人工智能·科技
后端小张7 小时前
【AI 学习】AI提示词工程:从入门到实战的全栈指南
java·人工智能·深度学习·学习·语言模型·prompt·知识图谱
海雅达手持终端PDA7 小时前
基于海雅达HDT500的零售电商UHF RFID移动应用创新与实战案例
大数据·人工智能·零售
戴西软件7 小时前
戴西发布 DLM许可证加密防护软件V4.2让工业软件授权迈入并发调度与精细治理时代
运维·服务器·网络·数据库·人工智能·安全·云计算
不惑_8 小时前
通俗理解经典CNN架构:VGGNet
人工智能·神经网络·cnn
没学上了8 小时前
MNIST
人工智能
audyxiao0019 小时前
人工智能顶级期刊PR论文解读|HCRT:基于相关性感知区域的混合网络,用于DCE-MRI图像中的乳腺肿瘤分割
网络·人工智能·智慧医疗·肿瘤分割
零售ERP菜鸟9 小时前
IT价值证明:从“成本中心”到“增长引擎”的确定性度量
大数据·人工智能·职场和发展·创业创新·学习方法·业界资讯