机器学习 笔记

特征值提取

字典

from sklearn.extaction import DictVectorizer

m=DictVectorizer(sparse=False)#sparse是否转换成三元组形式

data=[], #传入字典数据

data1=model.fit_transform(data) #使用API

英文特征值提取

from sklearn.feature_extraction.text import CountVectorizer

data=[]

transfer=CountVectorizer(stop_words=])#创建词频提取对象

x=transfer.fit_transform(data)# 提取词频

中文特征值提取

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

import jieba # 导入jieba用于断词中文字符串

import pandas as pd

def text_cut(text):

return "-".join(jieba.cut(text)) # 函数断词

data=[]

data1=(text_cut(i) for i in data) # 推导式

transfer=TfidfVectorizer(stop_words=[])

re=transfer.fit_transform(data1)

data2=pd.DataFrame(data=re.toarray(),columns=transfer.get_feature_names_out())

无量纲化-预处理

归一化

这里的 Xmin 和 Xmax 分别是每种特征中的最小值和最大值,而 ��是当前特征值,Xscaled 是归一化后的特征值。

标准化

相关推荐
GeeLark6 小时前
GeeLark 12月功能更新合集
人工智能·智能手机·自动化
设计是门艺术6 小时前
AI 生成 PPT 工具大全,智能排版 + 互动效果拉满
人工智能
移远通信6 小时前
移远5G-A王炸模组上线!AI+Wi-Fi 8+卫星通信,三重Buff叠满
人工智能·5g·移远通信
Aaron_9456 小时前
Memos:开源自托管笔记服务的技术深度解析
人工智能
人工智能知识库6 小时前
华为HCIA-AI Solution H13-313题库(带详细解析)
人工智能·华为·hcia-ai·h13-313
深度之眼6 小时前
机器学习可解释性的研究进展!
深度学习·机器学习·可解释性
集芯微电科技有限公司6 小时前
替代HT6310/KP3310离线式AC-DC无感线性稳压器
数据结构·人工智能·单片机·嵌入式硬件·fpga开发
Justice Young6 小时前
Sqoop复习笔记
hadoop·笔记·sqoop
悟道心6 小时前
6. 自然语言处理NLP - 迁移学习
人工智能·transformer
juxieyiyi8786 小时前
CDN与PCDN在边缘计算中的分工
人工智能·边缘计算·cdn·pcdn·平台搭建·互联网项目·pcdn平台搭建双收益