机器学习 笔记

特征值提取

字典

from sklearn.extaction import DictVectorizer

m=DictVectorizer(sparse=False)#sparse是否转换成三元组形式

data=[], #传入字典数据

data1=model.fit_transform(data) #使用API

英文特征值提取

from sklearn.feature_extraction.text import CountVectorizer

data=[]

transfer=CountVectorizer(stop_words=])#创建词频提取对象

x=transfer.fit_transform(data)# 提取词频

中文特征值提取

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

import jieba # 导入jieba用于断词中文字符串

import pandas as pd

def text_cut(text):

return "-".join(jieba.cut(text)) # 函数断词

data=[]

data1=(text_cut(i) for i in data) # 推导式

transfer=TfidfVectorizer(stop_words=[])

re=transfer.fit_transform(data1)

data2=pd.DataFrame(data=re.toarray(),columns=transfer.get_feature_names_out())

无量纲化-预处理

归一化

这里的 Xmin 和 Xmax 分别是每种特征中的最小值和最大值,而 ��是当前特征值,Xscaled 是归一化后的特征值。

标准化

相关推荐
Try,多训练3 分钟前
论文排版之添加图片、表格、公式的题注
经验分享·笔记
NineData6 分钟前
AI 时代的数据对比:DBA 还需要盯着屏幕看差异吗?
数据库·人工智能·dba·数据库管理工具·数据一致性·数据对比·异构迁移
大写-凌祁8 分钟前
Earth-Agent:Unlocking the Full Landscape of Earth Observation with Agents
人工智能·语言模型·agent·智能体
sali-tec10 分钟前
C# 基于OpenCv的视觉工作流-章35-组件连通
图像处理·人工智能·opencv·算法·计算机视觉
Are_You_Okkk_11 分钟前
适配集团/事业部/扁平化组织:开源知识库的落地策略与价值
人工智能·架构·开源
新缸中之脑19 分钟前
LLM训练数据集简介
人工智能
hqyjzsb20 分钟前
AI产品经理成长路径:如何从零打造属于自己的AI项目经验。
人工智能·职场和发展·产品经理·创业创新·学习方法·信息与通信·业界资讯
71-322 分钟前
Android studio中真机操作
android·笔记·学习·其他·android studio
AngelPP23 分钟前
软件的下一个用户不是人类,而是 Agent
人工智能
·中年程序渣·28 分钟前
Spring AI Alibaba入门学习(五)
人工智能·学习