Python数据分析之机器学习基础

Python 数据分析重点知识点

本系列不同其他的知识点讲解，力求通过例子让新同学学习用法，帮助老同学快速回忆知识点

可视化系列：

五、机器学习基础

了解机器学习概念、分类及常见算法
- 监督学习：使用标注数据，训练模型预测输出，如分类、回归任务。以下应用都是监督学习
- 无监督学习：处理未标注数据，寻找数据模式，如聚类、降维等。
模型评估与选择
- 掌握模型评估指标，使用交叉验证选最优模型。
实践应用
- 用 scikit-learn 等库构建简单机器学习模型解决实际问题。

应用1

python 复制代码

# 使用KNN对鸢尾花数据集进行分类
from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

#导入鸢尾花数据集并查看数据特征

iris=datasets.load_iris()

print('数据集结构：',iris.data.shape)

# 获取属性
iris_x=iris.data
print(iris_x) #对应萼片长度、萼片宽度、花瓣长度和花瓣宽度
# 获取类别
iris_y=iris.target 
print(iris_y) #相应的类型，山鸢尾（Setosa），杂色鸢尾（Versicolor）和维吉尼亚鸢尾（Virginica）
# 划分成测试集合训练集
iris_train_x,iris_test_x,iris_train_y,iris_test_y=train_test_split(iris_x,iris_y,test_size=0.2,random_state=0)
#分类器初始化
knn=KNeighborsClassifier()
# 对数据集进行训练
knn.fit(iris_train_x,iris_train_y)
# 对测试集数据的鸢尾花类型进行预测
predict_result=knn.predict(iris_test_x)
print('测试集大小：',iris_test_x.shape)
print('真实结果:',iris_test_y)
print('预测结果：',predict_result)
#显示预测精确率
print('预测精确率：',knn.score(iris_test_x,iris_test_y))

应用2

python 复制代码

# 使用KNN方法来实现手写数字识别
# coding=utf-8
import numpy as np
from os import listdir

def loadDataSet():
    # 获取训练数据集
    print("1.Loading trainSet...")
    trainFileList=listdir("source/HWdigits/trainSet")
    trainNum=len(trainFileList)

    trainX=np.zeros((trainNum,32*32))
    trainY=[]
    for i in range(trainNum):
        trainFile=trainFileList[i]
        # 将训练数据集向量化
        trainX[i,:]=img2vector('source/HWdigits/trainSet/%s'% trainFile,32,32)
        label=int(trainFile.split('_')[0]) # 读取文件名的第一位作为标记
        trainY.append(label)

    #获取测试数据集
    print("2.Loading testSet...")
    testFileList=listdir("source/HWdigits/testSet")
    testNum=len(testFileList)
    testX=np.zeros((testNum,32*32))
    testY=[]
    for i in range(testNum):
        testFile=testFileList[i]
        # 将测试数据集向量化
        testX[i,:]=img2vector('source/HWdigits/testSet/%s'% testFile,32,32)
        label=int(testFile.split('_')[0]) # 读取文件名的第一位作为标记
        testY.append(label)
    return trainX,trainY,testX,testY
def img2vector(filename,h,w):
    imgVector=np.zeros((1,h*w))
    fileIn=open(filename)
    for row in range(h):
        lineStr=fileIn.readline()
        for col in range(w):
            imgVector[0,row*32+col]=int(lineStr[col])
    return imgVector
def myKNN(testDigit,trainX,trainY,k):
    numSamples=trainX.shape[0]   # shape[0] 代表行，每一行一个图片，得到样本个数
    #计算欧式距离
    diff=[]
    for n in range(numSamples):
        diff.append(testDigit-trainX[n])  # 每个个体差
    diff=np.array(diff)             # 转变为ndarray
    # 对差求平方和，然后取和的平方根

    squaredDiff=diff ** 2
    squaredDist=np.sum(squaredDiff,axis=1)
    distance=squaredDist**0.5
    # 2.按距离进行排序
    sortedDistIndices=np.argsort(distance)
    classCount={}        # 存放各类的个体数量
    for i in range(k):
        #3.按顺序读取标签
        voteLabel=trainY[sortedDistIndices[i]]
        #4.计算该标签次数
        classCount[voteLabel]=classCount.get(voteLabel,0)+1

    # 5.查找出现次数最多的类别，作为分类结果
    maxCount=0
    for key,value in classCount.items():
        if value>maxCount:
            maxCount=value
            maxIndex=key
    return maxIndex

train_x,train_y,test_x,test_y=loadDataSet()
numTestSamples=test_x.shape[0]
matchCount=0
print("3.Find the most frequent label int k-nearest...")
print("4.show the result...")
for i in range(numTestSamples):
    predict=myKNN(test_x[i],train_x,train_y,3)
    print("result is: %d, real answer is: %d"%(predict,test_y[i]))
    if predict == test_y[i]:
        matchCount+=1
accuracy=float(matchCount)/numTestSamples
# 5.输出结果
print("5. Show the accuracy...")
print("   The total number of errors is: %d"%(numTestSamples-matchCount))
print("   The classsify accuracy is: %.2f%%"%(accuracy*100))

数据集链接

应用3

python 复制代码

# 使用支持向量机SVM算法对随机数进行训练分类
from sklearn import svm
import numpy as np
import matplotlib.pyplot as plt

#随机生成两组数据，并通过（-2,2）距离调整为明显的0/1两类
data = np.concatenate((np.random.randn(30, 2) - [-2, 2], np.random.randn(30, 2) + [-2, 2]))
target=[0]*30+[1]*30

#建立SVC模型
clf=svm.SVC(kernel='linear')
clf.fit(data,target)

#显示结果
w=clf.coef_[0]
a=-w[0]/w[1]
print('参数 w:',w)
print("参数 a:",a)
print("支持向量机：",clf.support_vectors_)
print("参数 coef_",clf.coef_)

#使用结果参数生成分类线
xx=np.linspace(-5,5)
yy=a*xx-(clf.intercept_[0]/w[1])

#绘制穿过正支持向量的虚线
b=clf.support_vectors_[0]
yy_Neg=a*xx+(b[1]-a*b[0])
#绘制穿过负支持向量的虚线
b=clf.support_vectors_[-1]
yy_Pos=a*xx+(b[1]-a*b[0])

#绘制黑色实线
plt.plot(xx,yy,'r-')
#黑色虚线
plt.plot(xx,yy_Neg,'k--')
plt.plot(xx,yy_Pos,'k--')

#绘制样本散点图
plt.scatter(clf.support_vectors_[:,0],clf.support_vectors_[:,1])
plt.scatter(data[:,0],data[:,1],c=target,cmap=plt.cm.coolwarm)

plt.xlabel("x")
plt.ylabel("y")
plt.title("Support Vector Classification")
plt.show()