机器学习 笔记

特征值提取

字典

from sklearn.extaction import DictVectorizer

m=DictVectorizer(sparse=False)#sparse是否转换成三元组形式

data=[], #传入字典数据

data1=model.fit_transform(data) #使用API

英文特征值提取

from sklearn.feature_extraction.text import CountVectorizer

data=[]

transfer=CountVectorizer(stop_words=])#创建词频提取对象

x=transfer.fit_transform(data)# 提取词频

中文特征值提取

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

import jieba # 导入jieba用于断词中文字符串

import pandas as pd

def text_cut(text):

return "-".join(jieba.cut(text)) # 函数断词

data=[]

data1=(text_cut(i) for i in data) # 推导式

transfer=TfidfVectorizer(stop_words=[])

re=transfer.fit_transform(data1)

data2=pd.DataFrame(data=re.toarray(),columns=transfer.get_feature_names_out())

无量纲化-预处理

归一化

这里的 Xmin 和 Xmax 分别是每种特征中的最小值和最大值,而 ��是当前特征值,Xscaled 是归一化后的特征值。

标准化

相关推荐
Elastic 中国社区官方博客2 小时前
Elasticsearch:使用 Agent Builder 的 A2A 实现 - 开发者的圣诞颂歌
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
chools2 小时前
【AI超级智能体】快速搞懂工具调用Tool Calling 和 MCP协议
java·人工智能·学习·ai
郝学胜-神的一滴2 小时前
深度学习必学:PyTorch 神经网络参数初始化全攻略(原理 + 代码 + 选择指南)
人工智能·pytorch·python·深度学习·神经网络·机器学习
leobertlan2 小时前
好玩系列:用20元实现快乐保存器
android·人工智能·算法
笨笨饿2 小时前
#58_万能函数的构造方法:ReLU函数
数据结构·人工智能·stm32·单片机·硬件工程·学习方法
jr-create(•̀⌄•́)2 小时前
从零开始:手动实现神经网络识别手写数字(完整代码讲解)
人工智能·深度学习·神经网络
冬奇Lab3 小时前
一天一个开源项目(第78篇):MiroFish - 用群体智能引擎预测未来
人工智能·开源·资讯
冬奇Lab3 小时前
你的 Skill 真的好用吗?来自OpenAI的 Eval 系统化验证 Agent 技能方法论
人工智能·openai
数智工坊3 小时前
Transformer 全套逻辑:公式推导 + 原理解剖 + 逐行精读 - 划时代封神之作!
人工智能·深度学习·transformer
GreenTea3 小时前
AI 时代,工程师的不可替代性在哪里
前端·人工智能·后端