机器学习 笔记

特征值提取

字典

from sklearn.extaction import DictVectorizer

m=DictVectorizer(sparse=False)#sparse是否转换成三元组形式

data=\[\], #传入字典数据

data1=model.fit_transform(data) #使用API

英文特征值提取

from sklearn.feature_extraction.text import CountVectorizer

data=\[\]

transfer=CountVectorizer(stop_words=])#创建词频提取对象

x=transfer.fit_transform(data)# 提取词频

中文特征值提取

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

import jieba # 导入jieba用于断词中文字符串

import pandas as pd

def text_cut(text):

return "-".join(jieba.cut(text)) # 函数断词

data=\[\]

data1=(text_cut(i) for i in data) # 推导式

transfer=TfidfVectorizer(stop_words=\[\])

re=transfer.fit_transform(data1)

data2=pd.DataFrame(data=re.toarray(),columns=transfer.get_feature_names_out())

无量纲化-预处理

归一化

这里的 Xmin 和 Xmax 分别是每种特征中的最小值和最大值,而 ��是当前特征值,Xscaled 是归一化后的特征值。

标准化

相关推荐
8Qi8几秒前
LeetCode 746:使用最小花费爬楼梯 —— 题解笔记
java·笔记·算法·leetcode·动态规划
2601_955781982 分钟前
Windows 环境快速部署 Hermes 智能 Agent,规避环境配置各类坑点
人工智能·本地部署·教程分享·hermes·hermes部署
DO_Community4 分钟前
LawVo 借助 DigitalOcean 扩展 AI 驱动的法律服务
人工智能
带娃的IT创业者4 分钟前
从马斯克败诉OpenAI看AI时代的契约重构与技术伦理边界
人工智能·重构·openai·马斯克·商业化·技术伦理·ai治理
Hali_Botebie4 分钟前
为什么静态3DGS+轨迹回放,可以通过强化学习训练端到端自动驾驶?
人工智能·机器学习·自动驾驶
SCKJAI5 分钟前
依托NVIDIA Cosmos 3赋能交通与安全智能升级,发布新一代智慧城市AI平台
人工智能
波动几何5 分钟前
领域消除评估技能domain-elimination-assessor
人工智能
AI科技星7 分钟前
依托Gε₀ = e²/(4παmₚ²)核心方程:全新公式推导+原创理论提炼+全维度精算验证
人工智能·线性代数·架构·概率论·学习方法
Henry Zhu1237 分钟前
从人类智能的形成机制到通用人工智能:一种具身、因果、社会化的适应系统框架
人工智能
光锥智能10 分钟前
把OpenAI按在地上摩擦,Anthropic怎么做到的?
大数据·人工智能