机器学习 笔记

特征值提取

字典

from sklearn.extaction import DictVectorizer

m=DictVectorizer(sparse=False)#sparse是否转换成三元组形式

data=[], #传入字典数据

data1=model.fit_transform(data) #使用API

英文特征值提取

from sklearn.feature_extraction.text import CountVectorizer

data=[]

transfer=CountVectorizer(stop_words=])#创建词频提取对象

x=transfer.fit_transform(data)# 提取词频

中文特征值提取

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

import jieba # 导入jieba用于断词中文字符串

import pandas as pd

def text_cut(text):

return "-".join(jieba.cut(text)) # 函数断词

data=[]

data1=(text_cut(i) for i in data) # 推导式

transfer=TfidfVectorizer(stop_words=[])

re=transfer.fit_transform(data1)

data2=pd.DataFrame(data=re.toarray(),columns=transfer.get_feature_names_out())

无量纲化-预处理

归一化

这里的 Xmin 和 Xmax 分别是每种特征中的最小值和最大值,而 ��是当前特征值,Xscaled 是归一化后的特征值。

标准化

相关推荐
羊羊小栈1 分钟前
基于YOLO和多模态大语言模型的智能电梯安全监控预警系统(vue+flask+AI算法)
人工智能·yolo·语言模型·毕业设计·创业创新·大作业
两万五千个小时3 分钟前
Claude Code 中的子 Agent 派生实现:Task Tool 完全指南
人工智能·python
摆烂咸鱼~4 分钟前
机器学习(12)
人工智能·机器学习
数字冰雹5 分钟前
AI 训练数据瓶颈破局:合成数据 赋能国防智能化
人工智能
蒸蒸yyyyzwd7 分钟前
网络编程封装mutex、cond、semaphore学习笔记
笔记·学习
liu****8 分钟前
机器学习-特征降维
人工智能·python·机器学习·python基础·特征降维
AI工程化实验室10 分钟前
Token 经济学:AI 工程师必修的 Token 治理实战
人工智能
dajun18112345615 分钟前
跨部门工作流泳道图在线绘制工具 PC
大数据·数据库·人工智能·信息可视化·架构·流程图
ba_pi15 分钟前
每天写点什么2026-01-10-深度学习和网络原理
网络·人工智能·深度学习
HZZD_HZZD19 分钟前
喜讯|合众致达成功中标G312线傅家窑至苦水公路机电工程FKJD-2标水电表项目
大数据·数据库·人工智能