机器学习 笔记

特征值提取

字典

from sklearn.extaction import DictVectorizer

m=DictVectorizer(sparse=False)#sparse是否转换成三元组形式

data=[], #传入字典数据

data1=model.fit_transform(data) #使用API

英文特征值提取

from sklearn.feature_extraction.text import CountVectorizer

data=[]

transfer=CountVectorizer(stop_words=])#创建词频提取对象

x=transfer.fit_transform(data)# 提取词频

中文特征值提取

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

import jieba # 导入jieba用于断词中文字符串

import pandas as pd

def text_cut(text):

return "-".join(jieba.cut(text)) # 函数断词

data=[]

data1=(text_cut(i) for i in data) # 推导式

transfer=TfidfVectorizer(stop_words=[])

re=transfer.fit_transform(data1)

data2=pd.DataFrame(data=re.toarray(),columns=transfer.get_feature_names_out())

无量纲化-预处理

归一化

这里的 Xmin 和 Xmax 分别是每种特征中的最小值和最大值,而 ��是当前特征值,Xscaled 是归一化后的特征值。

标准化

相关推荐
飞哥数智坊1 小时前
TRAE 国内版 SOLO 全放开
人工智能·ai编程·trae
落叶,听雪1 小时前
AI建站推荐
大数据·人工智能·python
AI猫站长1 小时前
快讯|特斯拉机器人街头“打工”卖爆米花;灵心巧手香港AI艺术节秀“艺能”,香港艺发局主席霍启刚积极评价;国产核心部件价格将“腰斩”
人工智能·机器人·具身智能·neurips·灵心巧手·脑电波·linkerhand
Cricyta Sevina1 小时前
Java IO 基础理论知识笔记
java·开发语言·笔记
Godspeed Zhao1 小时前
自动驾驶中的传感器技术77——Sensor Fusion(0)
人工智能·机器学习·自动驾驶
昨日之日20062 小时前
SCAIL - 自然流畅的AI角色动画生成软件 照片跳舞 虚拟偶像 WebUI+ComfyUI工作流 一键整合包下载
人工智能·音视频
geneculture2 小时前
从智力仿真到认知协同:人机之间的价值对齐与共生框架
大数据·人工智能·学习·融智学的重要应用·信智序位
我很哇塞耶2 小时前
OpenAI最新发布,企业级AI智能体的强化微调实践
人工智能·ai·大模型
岁月的眸2 小时前
【科大讯飞声纹识别和语音内容识别的实时接口实现】
人工智能·go·语音识别