机器学习 笔记

特征值提取

字典

from sklearn.extaction import DictVectorizer

m=DictVectorizer(sparse=False)#sparse是否转换成三元组形式

data=[], #传入字典数据

data1=model.fit_transform(data) #使用API

英文特征值提取

from sklearn.feature_extraction.text import CountVectorizer

data=[]

transfer=CountVectorizer(stop_words=])#创建词频提取对象

x=transfer.fit_transform(data)# 提取词频

中文特征值提取

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

import jieba # 导入jieba用于断词中文字符串

import pandas as pd

def text_cut(text):

return "-".join(jieba.cut(text)) # 函数断词

data=[]

data1=(text_cut(i) for i in data) # 推导式

transfer=TfidfVectorizer(stop_words=[])

re=transfer.fit_transform(data1)

data2=pd.DataFrame(data=re.toarray(),columns=transfer.get_feature_names_out())

无量纲化-预处理

归一化

这里的 Xmin 和 Xmax 分别是每种特征中的最小值和最大值,而 ��是当前特征值,Xscaled 是归一化后的特征值。

标准化

相关推荐
工边页字15 分钟前
面试官:请详细介绍下AI中的token,越详细越好!
前端·人工智能·后端
Miku1619 分钟前
OpenClaw-Linux+飞书官方Plugin安装指南
linux·人工智能·agent
Miku1623 分钟前
OpenClaw 接入 QQ Bot 完整实践指南
linux·人工智能·agent
哥布林学者28 分钟前
高光谱成像(五)高光谱成像的噪声估计
机器学习·高光谱成像
熊崽42 分钟前
Claude Code CLI+英伟达免费api 教程
人工智能
AI攻城狮1 小时前
OpenFang 给我的一个提醒:AI Agent 真正难的不是自主,而是治理
人工智能·云原生·aigc
ZhengEnCi2 小时前
10. 重排序模型实战-BGE-Rerank应用
人工智能
DevUI团队4 小时前
🚀 【Angular】MateChat V20.2.2版本发布,新增8+组件,欢迎体验~
前端·javascript·人工智能
DevUI团队5 小时前
🚀 MateChat V1.11.0 震撼发布!新增工具按钮栏组件及体验问题修复,欢迎体验~
前端·javascript·人工智能
乡村中医5 小时前
AIChat渲染md格式优化-Web Worker
人工智能