机器学习 笔记

特征值提取

字典

from sklearn.extaction import DictVectorizer

m=DictVectorizer(sparse=False)#sparse是否转换成三元组形式

data=[], #传入字典数据

data1=model.fit_transform(data) #使用API

英文特征值提取

from sklearn.feature_extraction.text import CountVectorizer

data=[]

transfer=CountVectorizer(stop_words=])#创建词频提取对象

x=transfer.fit_transform(data)# 提取词频

中文特征值提取

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

import jieba # 导入jieba用于断词中文字符串

import pandas as pd

def text_cut(text):

return "-".join(jieba.cut(text)) # 函数断词

data=[]

data1=(text_cut(i) for i in data) # 推导式

transfer=TfidfVectorizer(stop_words=[])

re=transfer.fit_transform(data1)

data2=pd.DataFrame(data=re.toarray(),columns=transfer.get_feature_names_out())

无量纲化-预处理

归一化

这里的 Xmin 和 Xmax 分别是每种特征中的最小值和最大值,而 ��是当前特征值,Xscaled 是归一化后的特征值。

标准化

相关推荐
SmartRadio2 分钟前
ESP32-S3对接豆包制作AI桌面数字收音机,桌面闹钟,桌面新闻播报器
人工智能·esp32·远程·虚拟键盘·虚拟鼠标
主机哥哥5 分钟前
阿里云OpenClaw极简部署教程,打造专属AI助手!
人工智能·阿里云·云计算
AI营销快线5 分钟前
决胜2026:原圈科技AI CRM系统如何领跑汽车销服一体化变革?
人工智能
qwy7152292581639 分钟前
13-图像的透视
人工智能·opencv·计算机视觉
光羽隹衡10 分钟前
计算机视觉——Opencv(图像直方图与掩膜)
人工智能·opencv·计算机视觉
KG_LLM图谱增强大模型11 分钟前
a16z 最新AI市场状态报告:独角兽崛起与科技超级周期
人工智能
xixixi7777714 分钟前
Prompt脱敏——不损失(或尽量少损失)原文本语义和上下文价值的前提下,防止原始敏感数据暴露给模型服务方、潜在的攻击者或出现在模型训练数据中
人工智能·microsoft·ai·大模型·数据安全·提示词·敏感信息
凡泰极客科技14 分钟前
新浪财经专访凡泰极客梁启鸿:金融App的AI落地应避哪些坑
人工智能·金融
量子-Alex16 分钟前
【大模型技术报告】Qwen2-VL技术报告解读
人工智能
得赢科技18 分钟前
2026年料汁定制公司深度评测报告
人工智能