机器学习 笔记

特征值提取

字典

from sklearn.extaction import DictVectorizer

m=DictVectorizer(sparse=False)#sparse是否转换成三元组形式

data=\[\], #传入字典数据

data1=model.fit_transform(data) #使用API

英文特征值提取

from sklearn.feature_extraction.text import CountVectorizer

data=\[\]

transfer=CountVectorizer(stop_words=])#创建词频提取对象

x=transfer.fit_transform(data)# 提取词频

中文特征值提取

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

import jieba # 导入jieba用于断词中文字符串

import pandas as pd

def text_cut(text):

return "-".join(jieba.cut(text)) # 函数断词

data=\[\]

data1=(text_cut(i) for i in data) # 推导式

transfer=TfidfVectorizer(stop_words=\[\])

re=transfer.fit_transform(data1)

data2=pd.DataFrame(data=re.toarray(),columns=transfer.get_feature_names_out())

无量纲化-预处理

归一化

这里的 Xmin 和 Xmax 分别是每种特征中的最小值和最大值,而 ��是当前特征值,Xscaled 是归一化后的特征值。

标准化

相关推荐
米小虾几秒前
AI Agent全面爆发:2026年最值得关注的Agent框架与实战选择指南
人工智能
东方巴黎~Sunsiny1 分钟前
后端已经开始使用AI代替前端开发了
java·人工智能·状态模式
AI科技星2 分钟前
引电统一方程:严格推导与量纲零错误验证
人工智能·算法·机器学习·架构·学习方法
AI探索先锋2 分钟前
[特殊字符] GPT-5.6 偷跑实锤!Anthropic 边喊“刹车“边冲 IPO,一只“哥布林“让 OpenAI 连夜封号|AI科技热线
人工智能·科技·ai
城事漫游Molly3 分钟前
质性研究AI工作流(二):编码工作流 SOP
人工智能·数据分析·ai for science·定性研究·定性编码·科研工作流
库拉大叔6 分钟前
大模型AI横评实测:GPT-4与Claude 3.5三大维度对比,落地选型怎么选?
大数据·人工智能
Days20508 分钟前
生成儿童故事绘本提示词---GPT Image2模型版
人工智能·故事
LabVIEW开发9 分钟前
LabVIEW 做双目视觉测距?精度不输激光雷达!
人工智能·数码相机·计算机视觉·labview·labview知识·labview功能·labview程序
涛思数据(TDengine)9 分钟前
TDgpt赋能能源行业:云鼎科技风力发电预测的探索与思考
人工智能·科技·时序数据库·tdengine·国产数据库
劈星斩月9 分钟前
什么是人工智能
人工智能·什么是人工智能