机器学习 笔记

特征值提取

字典

from sklearn.extaction import DictVectorizer

m=DictVectorizer(sparse=False)#sparse是否转换成三元组形式

data=\[\], #传入字典数据

data1=model.fit_transform(data) #使用API

英文特征值提取

from sklearn.feature_extraction.text import CountVectorizer

data=\[\]

transfer=CountVectorizer(stop_words=])#创建词频提取对象

x=transfer.fit_transform(data)# 提取词频

中文特征值提取

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

import jieba # 导入jieba用于断词中文字符串

import pandas as pd

def text_cut(text):

return "-".join(jieba.cut(text)) # 函数断词

data=\[\]

data1=(text_cut(i) for i in data) # 推导式

transfer=TfidfVectorizer(stop_words=\[\])

re=transfer.fit_transform(data1)

data2=pd.DataFrame(data=re.toarray(),columns=transfer.get_feature_names_out())

无量纲化-预处理

归一化

这里的 Xmin 和 Xmax 分别是每种特征中的最小值和最大值,而 ��是当前特征值,Xscaled 是归一化后的特征值。

标准化

相关推荐
米小虾16 分钟前
Loop Engineering 深度实践指南:9 种 2026 年最新做法与完整代码
人工智能·agent
aaaa9547266519 分钟前
从Claude Code到平替:我的vibe coding迭代体验
人工智能
叫我:松哥19 分钟前
基于机器学习的中文文本抑郁症风险检测系统,包括NLP与传统机器学习的抑郁症识别,准确率92%
人工智能·深度学习·机器学习·自然语言处理·flask·nlp·bootstrap
天天讯通21 分钟前
OKCC 呼叫中心安全性能全解析:技术防护与管理措施指南
大数据·开发语言·网络·人工智能·安全·语音识别
hai31524754327 分钟前
九章编程法 · 猜数字游戏 (GW-BASIC 重构版) *
人工智能·microsoft·游戏引擎·游戏程序
邵宇然31 分钟前
跨沙箱动态传递:WASM 与宿主环境间变长文本数据的零拷贝读取
人工智能
小小小花儿40 分钟前
如何使用Codex进行Vibe Coding
人工智能
信也科技布道师42 分钟前
Agent Skills + Vibe Testing:构建人机协作的测试闭环
人工智能·agent skills
朱大喜44 分钟前
BI 平台搭建:从数仓到自助分析的实战路径
人工智能