机器学习 笔记

特征值提取

字典

from sklearn.extaction import DictVectorizer

m=DictVectorizer(sparse=False)#sparse是否转换成三元组形式

data=[], #传入字典数据

data1=model.fit_transform(data) #使用API

英文特征值提取

from sklearn.feature_extraction.text import CountVectorizer

data=[]

transfer=CountVectorizer(stop_words=])#创建词频提取对象

x=transfer.fit_transform(data)# 提取词频

中文特征值提取

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

import jieba # 导入jieba用于断词中文字符串

import pandas as pd

def text_cut(text):

return "-".join(jieba.cut(text)) # 函数断词

data=[]

data1=(text_cut(i) for i in data) # 推导式

transfer=TfidfVectorizer(stop_words=[])

re=transfer.fit_transform(data1)

data2=pd.DataFrame(data=re.toarray(),columns=transfer.get_feature_names_out())

无量纲化-预处理

归一化

这里的 Xmin 和 Xmax 分别是每种特征中的最小值和最大值,而 ��是当前特征值,Xscaled 是归一化后的特征值。

标准化

相关推荐
Yngz_Miao8 小时前
【深度学习】交叉熵损失函数Cross-Entropy Loss
人工智能·深度学习·损失函数·交叉熵·ce
chenzhiyuan20188 小时前
BL450实测:YOLOv8在产线端能跑多快?
人工智能
一休哥助手8 小时前
2026年1月22日人工智能早间新闻
人工智能
良策金宝AI8 小时前
工程设计企业AI试用落地路径:从效率验证到知识沉淀
数据库·人工智能·知识图谱·ai助手·工程设计
奔袭的算法工程师8 小时前
CRN源码详细解析(4)-- 图像骨干网络之DepthNet和ViewAggregation
人工智能·pytorch·深度学习·目标检测·自动驾驶
cjqbg9 小时前
灵芽API:企业级大模型API聚合网关架构解析与成本效益对比
人工智能·架构·aigc·ai编程
人工智能培训9 小时前
数字孪生应用于特种设备领域的技术难点
人工智能·机器学习·语言模型·数字孪生·大模型幻觉·数字孪生应用
慧一居士9 小时前
OpenAI 和OpenApi 区别对比和关系
人工智能
资讯雷达9 小时前
2026 年,GEO 优化如何选?风信子传媒:以“内容生态+智能分发”重塑品牌 AI 认知
大数据·人工智能·传媒
张祥6422889049 小时前
误差理论与测量平差基础笔记七
线性代数·机器学习·numpy