【Python机器学习】利用PCA来简化数据——示例:利用PCA对半导体制造数据降维

数据背景:

通过半导体工程上的一些过程数据,对一些产品进行是否有缺陷的验证。

数据样例:

数据中包含了590个特征,且存在很多的缺失值,这些缺失值是以NaN标识的。因为在590个特征下,几乎所有样本都有NaN,因此去除不完整的样本不太现实。尽管我们可以将所有的NaN替换成0,但是由于并不知道这些值的意义,所以这样做是下策。比如如果有特征是温度值,那么这样处理就会出问题。

下面我们用平均值来代替缺失值,平均值根据那些非NaN得到:

python 复制代码
def replaceNanWithMean():
    datMat=loadDataSet('test/secom.data',' ')
    numFeat=shape(datMat)[1]
    for i in range(numFeat):
        #计算所有非NaN的平均值
        meanVal=mean(datMat[nonzero(~isnan(datMat[:,i].A))[0],i])
        #将所有的NaN置为平均值
        datMat[nonzero(isnan(datMat[:,i].A))[0],i]=meanVal
    return datMat

上述代码首先打开了数据集并计算出了其特征的数目,然后再在所有的特征上进行循环。对于每个特征,首先计算出那些非NaN值的平均值。然后,将所有的NaN替换成该平均值。

我们已经去除了所有的NaN,接下来在数据集上应用PCA。首先确认所需特征和可以去除特征的数目。PCA会给出数据中所包含的信息量。需要注意的是,数据和信息之间具有巨大的区别。数据指的是接收的原始材料,其中可能包含噪声和不相关信息。信息是指数据中的相关部分。这些并非只是抽象概念,我们还可以定量的计算数据中所包含的信息并决定保留的比例。

通过已有代码去除均值、计算协方差矩阵:

python 复制代码
dataMat=replaceNanWithMean()
meanVals=mean(dataMat,axis=0)
meanRemoved=dataMat-meanVals
covMat=cov(meanRemoved,rowvar=0)

最后对该矩阵进行特征值分析:

python 复制代码
eigVals,eigVects=linalg.eig(mat(covMat))
print(eigVals)

如上图,有很多数值,其中,有超过20%的特征值都是0,这意味着这些特征都是其他特征的副本,也就是说它们可以通过其他特征来表示,而本身没有提供额外的信息。

从大小排序来看,前15个的数量级大于10^5,这些是重要特征,只占所有特征的一部分。

相关推荐
hef28842 分钟前
如何生成特定SQL的AWR报告_@awrsqrpt.sql深度剖析单条语句性能
jvm·数据库·python
小程故事多_8042 分钟前
Agent+Milvus,告别静态知识库,打造具备动态记忆的智能AI助手
人工智能·深度学习·ai编程·milvus
code_pgf1 小时前
Llama 3详解
人工智能·llama
ComputerInBook1 小时前
数字图像处理(4版)——第 3 章——(图像的)强度变换和空间滤波(Rafael C.Gonzalez&Richard E. Woods)
图像处理·人工智能·计算机视觉·强度变换和空间滤波
爱写代码的小朋友1 小时前
生成式人工智能(AIGC)在开放式教育问答系统中的知识表征与推理机制研究
人工智能·aigc
Jinkxs1 小时前
从语法纠错到项目重构:Python+Copilot 的全流程开发效率提升指南
python·重构·copilot
技术专家1 小时前
Stable Diffusion系列的详细讨论 / Detailed Discussion of the Stable Diffusion Series
人工智能·python·算法·推荐算法·1024程序员节
m0_488913011 小时前
万字长文带你梳理Llama开源家族:从Llama-1到Llama-3,看这一篇就够了!
人工智能·学习·机器学习·大模型·产品经理·llama·uml
helpme流水1 小时前
LLaMA Factory 从入门到精通,一篇讲完
人工智能·ai·语言模型·llama
段一凡-华北理工大学1 小时前
【大模型+知识图谱+工业智能体技术架构】~系列文章01:快速了解与初学入门!!!
人工智能·python·架构·知识图谱·工业智能体