机器学习 笔记

特征值提取

字典

from sklearn.extaction import DictVectorizer

m=DictVectorizer(sparse=False)#sparse是否转换成三元组形式

data=[], #传入字典数据

data1=model.fit_transform(data) #使用API

英文特征值提取

from sklearn.feature_extraction.text import CountVectorizer

data=[]

transfer=CountVectorizer(stop_words=])#创建词频提取对象

x=transfer.fit_transform(data)# 提取词频

中文特征值提取

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

import jieba # 导入jieba用于断词中文字符串

import pandas as pd

def text_cut(text):

return "-".join(jieba.cut(text)) # 函数断词

data=[]

data1=(text_cut(i) for i in data) # 推导式

transfer=TfidfVectorizer(stop_words=[])

re=transfer.fit_transform(data1)

data2=pd.DataFrame(data=re.toarray(),columns=transfer.get_feature_names_out())

无量纲化-预处理

归一化

这里的 Xmin 和 Xmax 分别是每种特征中的最小值和最大值,而 ��是当前特征值,Xscaled 是归一化后的特征值。

标准化

相关推荐
AI_567811 分钟前
Postman接口测试极速入门指南
开发语言·人工智能·学习·测试工具·lua
我的golang之路果然有问题12 分钟前
开源绘画大模型简单了解
人工智能·ai作画·stable diffusion·人工智能作画
极智视界23 分钟前
目标检测数据集 - 自动驾驶场景车辆方向检测数据集下载
人工智能·目标检测·自动驾驶
田井中律.26 分钟前
知识图谱(四)之LSTM+CRF
人工智能·机器学习
IMPYLH27 分钟前
Lua 的 String(字符串) 模块
开发语言·笔记·单元测试·lua
Hcoco_me32 分钟前
大模型面试题74:在使用GRPO训练LLM时,训练数据有什么要求?
人工智能·深度学习·算法·机器学习·chatgpt·机器人
筱昕~呀33 分钟前
基于深度生成对抗网络的智能实时美妆设计
人工智能·python·生成对抗网络·mediapipe·beautygan
qunaa010139 分钟前
钻井作业场景下设备与产品识别与检测:基于YOLO11-SRFD的目标检测系统实现与应用
人工智能·目标检测·计算机视觉
AI前言观察者40 分钟前
2026年工作简历怎么写?
人工智能·经验分享·面试·职场和发展·求职招聘
明天好,会的42 分钟前
博客置顶导读
经验分享·笔记