机器学习 笔记

特征值提取

字典

from sklearn.extaction import DictVectorizer

m=DictVectorizer(sparse=False)#sparse是否转换成三元组形式

data=[], #传入字典数据

data1=model.fit_transform(data) #使用API

英文特征值提取

from sklearn.feature_extraction.text import CountVectorizer

data=[]

transfer=CountVectorizer(stop_words=])#创建词频提取对象

x=transfer.fit_transform(data)# 提取词频

中文特征值提取

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

import jieba # 导入jieba用于断词中文字符串

import pandas as pd

def text_cut(text):

return "-".join(jieba.cut(text)) # 函数断词

data=[]

data1=(text_cut(i) for i in data) # 推导式

transfer=TfidfVectorizer(stop_words=[])

re=transfer.fit_transform(data1)

data2=pd.DataFrame(data=re.toarray(),columns=transfer.get_feature_names_out())

无量纲化-预处理

归一化

这里的 Xmin 和 Xmax 分别是每种特征中的最小值和最大值,而 ��是当前特征值,Xscaled 是归一化后的特征值。

标准化

相关推荐
天天找自己13 分钟前
机器学习基石:深入解析线性回归
人工智能·机器学习·线性回归
星辰云-16 分钟前
Nginx笔记
运维·笔记·nginx
是孑然呀22 分钟前
【笔记】重学单片机(51)(下)
笔记·单片机·嵌入式硬件
zhangxiaomm35 分钟前
pytorch 学习笔记(2)-实现一个线性回归模型
pytorch·笔记·学习
Godspeed Zhao1 小时前
自动驾驶中的传感器技术12——Camera(3)
人工智能·机器学习·自动驾驶
tangjunjun-owen1 小时前
单类别目标检测中的 Varifocal Loss 与 mAP 评估:从原理到实践(特别前景和背景类区分)
人工智能·目标检测·计算机视觉
爆改模型1 小时前
【CVPR2025】计算机视觉|AnomalyNCD:让工业异常分类“脱胎换骨”!
人工智能·计算机视觉·分类
Fabarta技术团队1 小时前
Fabarta个人专属智能体限时体验中:高效、安全的长文写作新搭档
人工智能·科技·智能体
Yolanda_20221 小时前
k8s黑马教程笔记
笔记·容器·kubernetes
暴躁的大熊1 小时前
LLM大模型时代:生活服务领域的“生存革命“与新生态重构
人工智能