机器学习 笔记

特征值提取

字典

from sklearn.extaction import DictVectorizer

m=DictVectorizer(sparse=False)#sparse是否转换成三元组形式

data=[], #传入字典数据

data1=model.fit_transform(data) #使用API

英文特征值提取

from sklearn.feature_extraction.text import CountVectorizer

data=[]

transfer=CountVectorizer(stop_words=])#创建词频提取对象

x=transfer.fit_transform(data)# 提取词频

中文特征值提取

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

import jieba # 导入jieba用于断词中文字符串

import pandas as pd

def text_cut(text):

return "-".join(jieba.cut(text)) # 函数断词

data=[]

data1=(text_cut(i) for i in data) # 推导式

transfer=TfidfVectorizer(stop_words=[])

re=transfer.fit_transform(data1)

data2=pd.DataFrame(data=re.toarray(),columns=transfer.get_feature_names_out())

无量纲化-预处理

归一化

这里的 Xmin 和 Xmax 分别是每种特征中的最小值和最大值,而 ��是当前特征值,Xscaled 是归一化后的特征值。

标准化

相关推荐
largecode1 分钟前
能不能让座机号码显示“XX公司”那样的认证名称?申请号码认证方法
经验分享·笔记·音视频·课程设计·oneapi·segmentfault·微信开放平台
晓山清2 分钟前
TCN时序卷积网络详解
网络·人工智能·cnn·时序卷积网络
weixin_397578028 分钟前
本地git 的使用
人工智能
霸道流氓气质9 分钟前
Spring AI ChatMemory 对话记忆配置JDBC方式到Mysql数据库实战示例与原理讲解
数据库·人工智能·spring
搬砖的梦先生12 分钟前
Codex 全 AI 辅助测试操作指南
人工智能
shchojj13 分钟前
What is Generative AI -Welcome
人工智能·chatgpt
NebulaData17 分钟前
从通用到垂直:AI 平台竞争的下半场与产业落地路径
人工智能·数据挖掘
NingboWill17 分钟前
AI日报 - 2026年05月13日
人工智能·快手·ai ppt·宇树
跨境卫士苏苏17 分钟前
欧盟固定收费临近轻小件卖家如何判断继续铺量还是收缩
大数据·人工智能·安全·跨境电商·亚马逊
高工智能汽车18 分钟前
从新势力到合资豪华旗舰 百度地图车道级SR导航何以成为高端旗舰车型首选?
人工智能·汽车