人工智能机器学习-特征工程

特征工程

特征工程:就是对特征进行相关的处理

一般使用pandas来进行数据清洗和数据处理、使用sklearn来进行特征工程

特征提取

稀疏矩阵

就是矩阵内含0量居多的矩阵,且零元素分布没有规律。

可以转换为三元数组

( ,)内为矩阵坐标,后面为数据

列出了有意义的,利于机器学习的数值,其余皆为0。

更利于储存。

稠密矩阵

跟稀疏矩阵相比,含零量较少或相等

具体使用:

导入from sklern.feature_extraction import DictVectorizer

DictVectorizer表示对字典列表的特征提取

在使用fit_transfrom转化前需要将字典数组转化为DictVectrizer对象

转换器对象:

(重要)fif_transfrom()函数

里面的参数为字典或者字典嵌套列表,返回值为转化后的矩阵或者数组

python 复制代码
#创建转换器对象
from sklearn.feature_extraction import DictVectorizer
data = [{'city':'成都', 'age':30, 'temperature':200}, {'city':'重庆','age':33, 'temperature':60}, {'city':'北京', 'age':42, 'temperature':80}]
#创建DictVertorizer对象
transfer = DictVectorizer(sparse=False)
data_new = transfer.fit_transform(data)
print(data_new)

CountVectorizer 文本特征提取

英文文本提取

导入方法:

python 复制代码
from sklearn.feature_extranction.text import CountVectorizer

此处的文本提取,后面的单词为CoutVectotizer

同理;

先创建CoutVectotizer对象,用于转换的对象。

python 复制代码
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
import pandas as pd
data=["stu is well, stu is great", "You like stu"]
#创建CountVectorizer对象,[stop_word=[]]内的为不提取的值
transfer = CountVectorizer(stop_words=['you','is'])
#进行提取
data_new = transfer.fit_transform(data)
print(data_new)

同样使用fit_transfrom进行转化,得到一个三元数组。

中文文本提取

中文文本不像英文文本,中文文本文字之间没有空格,所以要先分词,一般使用jieba分词.

下载jieba组件, (不要使用conda)

python 复制代码
import jieba
from sklearn.feature_extraction.text import CountVectorizer
arr = list(jieba.cut('我爱别急天安门'))
#cut 使用jieba分词

使用jieba方法封装一个函数

python 复制代码
def cut(text):
    return " ".join(list(jieba.cut(text)))
    
data = "在如今的互联网世界,正能量正成为澎湃时代的大流量"
data = cut(data)
print(data)

TfidfVectorizer TF-IDF文本特征词的重要程度特征提取

词频(Term Frequency, TF), 表示一个词在当前篇文章中的重要性

逆文档频率(Inverse Document Frequency, IDF), 反映了词在整个文档集合中的稀有程度

计算公式;

代码与CountVectorizer的示例基本相同,仅仅把CountVectorizer改为TfidfVectorizer即可。

计算词频有两种方法:

1.原始词频,一个词在文档中出现的次数除以文档中总的次数

2.平滑后的词频,为了防止高频词主导向量空间,有时会对词频做平滑处理,例如1+log(TF)

python 复制代码
from sklearn.feature_extraction.text import TfidfVectorizer,CountVectorizer
import numpy as np
import pandas as pd
import jieba
def cut(test):
    return ''.join(list(jieba.cut(test)))
data = ["教育学会会长期间,坚定支持民办教育事业!",  "扶持民办,学校发展事业","事业做出重大贡献!"]
data_1 = [cut(i) for i in data]
transfer = TfidfVectorizer(stop_words=['期间','做出'])#初始化一个转换器对象
data_new = transfer.fit_transform(data_1)#将对象转换成
# print(data_1)
print(data_new)
pd.DataFrame(data_new.toarray(), columns=transfer.get_feature_names_out())

上面的公式可以用函数方法表示

  • cut 函数使用 jieba 对输入文本进行分词,并将分词结果转换为字符串。

  • data_1 是经过分词处理后的文本列表。

  • TfidfVectorizer 初始化时指定了停用词 ['期间', '做出'],这些词在特征提取时会被忽略。

  • fit_transform 方法将文本数据转换为 TF-IDF 特征矩阵。

  • data_new.toarray() 将稀疏矩阵转换为密集矩阵(二维数组)。

  • transfer.get_feature_names_out() 获取特征名称列表。

  • pd.DataFrame 将二维数组转换为 DataFrame,列名为特征名称。

以上是特征提取并转换成Dataframe形式的代码流程

无量纲化-预处理

无量纲化(Normalization)是数据预处理中的一个重要步骤,尤其是在处理多维数据时。无量纲化的主要目的是消除不同特征之间的量纲差异,使得每个特征对模型的影响更加均衡。

MinMaxScaler 归一化

导入:

python 复制代码
from sklearn.preprocessing import MinMaxScaler

sklern.preprocessing MinMaxscaler

python 复制代码
from sklearn.preprocessing import MinMaxScaler
import numpy as np
data = np.array([
    [10, 200, 50],
    [20, 150, 60],
    [30, 100, 70],
    [40, 50, 80]
])
transfer = MinMaxScaler(feature_range=(0, 1))
data_new = transfer.fit_transform(data)
print(data_new)

feature_range=(), 为阈值,设置阈值可以设置特征取值范围

StandardScaler 标准化

它的目的是将不同特征的数值范围缩放到统一的标准范围,以便更好地适应一些机器学习算法,特别是那些对输入数据的尺度敏感的算法。

与MinMaxScaler一样,原始数据类型可以是list、DataFrame和ndarray

fit_transform函数的返回值为ndarray, 归一化后得到的数据类型都是ndarray

python 复制代码
from sklearn.preprocessing import StandardScaler
import numpy as np
import pandas as pd
df_data = pd.read_csv("../src/dating.txt")
# print(df_data)
transfer = StandardScaler()#实例化转换器
data_new = transfer.fit_transform(df_data)#使用fit_transfer方法转化
# print(type(data_new[0:5]))
data_1 = pd.DataFrame(data_new)
nd_data = data_1.values
print(type(nd_data))

fit:

  • 这个方法用来计算数据的统计信息,比如均值和标准差(在StandardScaler的情况下)。这些统计信息随后会被用于数据的标准化。

fit_transform:

  • 这个方法相当于先调用fit再调用transform,但是它在内部执行得更高效。

transform:

  • 这个方法使用已经通过fit方法计算出的统计信息来转换数据。

  • 一旦scaler对象在X_train上被fit,它就已经知道了如何将数据标准化。 这时,对于测试集X_test,我们只需要使用transform方法,因为我们不希望在测试集上重新计算任何统计信息,也不希望测试集的信息影响到训练过程。如果我们对X_test也使用fit_transform,测试集的信息就可能会影响到训练过程。

特征降维

特征降维其目的:是减少数据集的维度,同时尽可能保留数据的重要信息。

VarianceThreshold 低方差过滤特征选择

过滤特征:移除所有方差低于设定阈值的特征

python 复制代码
from sklearn.feature_selection import VarianceThreshold
import pandas as pd 
def vars():
    data=pd.DataFrame([[10,1],[11,3],[11,1],[11,5],[11,9],[11,3],[11,2],[11,6]])
    transfer = VarianceThreshold(threshold=1)
    data_new = transfer.fit_transform(data)
    print(data_new)
    return
vars()

代码中的threshold=1,为设置的阈值

低于阈值的被过滤掉。

根据相关系数的特征选择

正相关性(Positive Correlation)是指两个变量之间的一种统计关系,其中一个变量的增加通常伴随着另一个变量的增加,反之亦然。在正相关的关系中,两个变量的变化趋势是同向的。当我们说两个变量正相关时,意味着:

  • 如果第一个变量增加,第二个变量也有很大的概率会增加。

  • 同样,如果第一个变量减少,第二个变量也很可能会减少。

在数学上,正相关性通常用正值的相关系数来表示,这个值介于0和1之间。当相关系数等于1时,表示两个变量之间存在完美的正相关关系,即一个变量的值可以完全由另一个变量的值预测。

负相关性(Negative Correlation)与正相关性刚好相反,但是也说明相关,比如运动频率和BMI体重指数程负相关

不相关指两者的相关性很小,一个变量变化不会引起另外的变量变化,只是没有线性关系. 比如饭量和智商

皮尔逊相关系数
  • \\rho=1 表示完全正相关,即随着一个变量的增加,另一个变量也线性增加。

  • \\rho=-1 表示完全负相关,即随着一个变量的增加,另一个变量线性减少。

  • \\rho=0 表示两个变量之间不存在线性关系。

scipy.stats.personr(x, y) 计算两特征之间的相关性

python 复制代码
from scipy.stats import pearsonr
def association_demo():
     # 1、获取数据
    data = pd.read_csv("../src/factor_returns.csv")
    data = data.iloc[:, 1:-2]
     # 计算某两个变量之间的相关系数
    r1 = pearsonr(data["pe_ratio"], data["pb_ratio"])
    print(r1.statistic) #-0.0043893227799362555 相关性, 负数表示负相关
    print(r1.pvalue) #0.8327205496590723        正相关性
    r2 = pearsonr(data['revenue'], data['total_expense'])
    print(r2) #PearsonRResult(statistic=0.9958450413136111, pvalue=0.0)
    return None
association_demo()
相关推荐
迅易科技1 小时前
借助腾讯云质检平台的新范式,做工业制造企业质检的“AI慧眼”
人工智能·视觉检测·制造
古希腊掌管学习的神2 小时前
[机器学习]XGBoost(3)——确定树的结构
人工智能·机器学习
ZHOU_WUYI2 小时前
4.metagpt中的软件公司智能体 (ProjectManager 角色)
人工智能·metagpt
靴子学长3 小时前
基于字节大模型的论文翻译(含免费源码)
人工智能·深度学习·nlp
AI_NEW_COME4 小时前
知识库管理系统可扩展性深度测评
人工智能
海棠AI实验室4 小时前
AI的进阶之路:从机器学习到深度学习的演变(一)
人工智能·深度学习·机器学习
hunteritself4 小时前
AI Weekly『12月16-22日』:OpenAI公布o3,谷歌发布首个推理模型,GitHub Copilot免费版上线!
人工智能·gpt·chatgpt·github·openai·copilot
IT古董5 小时前
【机器学习】机器学习的基本分类-强化学习-策略梯度(Policy Gradient,PG)
人工智能·机器学习·分类
centurysee5 小时前
【最佳实践】Anthropic:Agentic系统实践案例
人工智能
mahuifa5 小时前
混合开发环境---使用编程AI辅助开发Qt
人工智能·vscode·qt·qtcreator·编程ai