第4章基于概率论的分类方法：朴素贝叶斯

称之为"朴素"，是因为整个形式化过程只做最原始、最简单的假设。

4.1 基于贝叶斯决策理论的分类方法

朴素贝叶斯：

优点：在数据较少的情况下仍然有效，可以处理多类别问题。

缺点：对于输入数据的准备方式较为敏感。

使用数据类型：标称型数据。

贝叶斯决策理论的核心思想,即选择据亚欧最高概率的决策。

假设用 p 1 ( x , y ) p1(x,y) p1(x,y)表示数据点 ( x , y ) (x,y) (x,y)属于类别1的概率,用 p 2 ( x , y ) p2(x,y) p2(x,y)表示数据点 ( x , y ) (x,y) (x,y)属于类别2的概率,那么对于一个新数据点 ( x , y ) (x,y) (x,y),可以用下面的规则来判断它的类别:

a. 如果 p 1 ( x , y ) > p 2 ( x , y ) p1(x,y) > p2(x,y) p1(x,y)>p2(x,y),那么类别为1。

b. 如果 p 1 ( x , y ) < p 2 ( x , y ) p1(x,y) < p2(x,y) p1(x,y)<p2(x,y),那么类别为2。

4.2 条件概率

有效算法条件概率的方法称为贝叶斯准则：

p ( c ∣ x ) = p ( x ∣ c ) p ( c ) p ( x ) p(c|x) = \frac{p(x|c) p(c)}{p(x)} p(c∣x)=p(x)p(x∣c)p(c)

4.3 使用条件概率来分类

真正需要计算和比较的是 $p(c_1\|x,y) 和和和 p(c_2\|x,y)$

具体意义是:给定莫格由x,y表示的数据点,那么该数据点来自类别 $c_1 的概率是多少 ? 来自类别的概率是多少?来自类别的概率是多少?来自类别 c_2$ 的概率又是多少?

具体的应用贝叶斯准则得到:
p ( c i ∣ x , y ) = p ( x , y ∣ c i ) p ( c i ) p ( x , y ) p(c_i|x,y) = \frac{p(x,y|c_i) p(c_i)}{p(x,y)} p(ci∣x,y)=p(x,y)p(x,y∣ci)p(ci)

使用这些定义,可以定义贝叶斯分类准则为:

a. 如果 p 1 ( c 1 ∣ x , y ) > p 2 ( c 2 ∣ x , y ) p1(c_1|x,y) > p2(c_2|x,y) p1(c1∣x,y)>p2(c2∣x,y),那么类别为1。

b. 如果 p 1 ( c 1 ∣ x , y ) < p 2 ( x , y ) p1(c_1|x,y) < p2(x,y) p1(c1∣x,y)<p2(x,y),那么类别为2。

4.4 使用朴素贝叶斯进行文档分类

朴素贝叶斯的一般过程：

收集数据：可以使用任何方法。本章使用RSS源头。
准备数据：需要数值型或者布尔型数据。
分析数据：有大量特征时，绘制特征作用不大，此时使用直方图效果更好。
训练算法：计算不同的独立特征的条件概率。
测试算法：计算错误率。
使用算法：一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类常见中使用朴素贝叶斯分类器，不一定非要是文本。

4.5 使用Python进行文本分类

4.5.1 数据准备：从文本中构建词向量

词表到向量的转换函数：

复制代码

def loadDataSet():
    '''
    创建实验样本
    :return:
    '''
    postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                   ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                   ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                   ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                   ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                   ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0, 1, 0, 1, 0, 1] # 1:代表有侮辱性文字, 0:代表正常言论
    return postingList, classVec

def createVocabList(dataSet):
    '''
    创建一个包含所有文档中出现的不重复词的列表
    :param dataSet:
    :return:
    '''
    vocabSet= set([])       ##创建一个空集
    ##创建两个集合的并集 将每篇文档返回的新词添加到该集合中
    for document in dataSet:
        vocabSet = vocabSet | set(document)
    return list(vocabSet)

def setOfWords2Vec(vocabList, inputSet):
    '''

    :param vocabList: 词汇表
    :param inputSet: 某个文档
    :return: 文档向量
    '''
    ##创建一个其中所含元素都为0的向量
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word: %s is notin my Vocabulary!" % word)
    return returnVec

if __name__ == '__main__':
     listOPosts, listClasses = loadDataSet()
     myVocabList = createVocabList(listOPosts)
     print(myVocabList)
     print(setOfWords2Vec(myVocabList, listOPosts[0]))

4.5.2 训练算法：从词向量计算概率

重写贝叶斯准则，将之前的x、y替换为 w ⃗ \vec w w 。箭头下w表示这是一个向量，即它由多个数值组成。
p ( c i ∣ w ⃗ ) = p ( w ⃗ ∣ c i ) p ( c i ) p ( w ⃗ ) p(c_i | \vec w) = \frac{p(\vec w|c_i) p(c_i)}{p(\vec w)} p(ci∣w )=p(w )p(w ∣ci)p(ci)

该函数的伪代码如下：

复制代码

计算每个类别中的文档数目
对每篇训练文档：
    对每个类别：
        如果词条出想在文档中 -> 增加该此提案的技术值
        增加所有词条的计数值
    对每个类别：
        对每个词条：
            将该此提案的数目除以总词条数目得到条件概率
    返回每个类别的条件概率

贝叶斯分类器训练函数：

复制代码

def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCategory) / float(numTrainDocs)
    ## 初始化概率
    p0Num = np.ones(numWords)
    p1Num = np.ones(numWords)
    p0Denom = 2.0
    p1Denom = 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            ## 向量相加
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    ## 对每个元素作除法
    p1Vect = np.log(p1Num / p1Denom)
    p0Vect = np.log(p0Num / p0Denom)
    return p0Vect, p1Vect, pAbusive

if __name__ == '__main__':
    listOPosts, listClasses = loadDataSet()
    myVocabList = createVocabList(listOPosts)
    trainMat=[]
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))

    p0V, p1V, pAb = trainNB0(trainMat, listClasses)
    print(pAb)
    print(p0V)
    print(p1V)

4.5.3 测试算法：根据事项情况修改分类器

朴素贝叶斯分类函数：

复制代码

def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    '''
    
    :param vec2Classify: 分类的向量
    :param p0Vec:   0的概率
    :param p1Vec:   1的概率
    :param pClass1:  
    :return: 
    '''
    p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)
    p0 = sum(vec2Classify * p0Vec) + np.log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else:
        return 0

def testingNB():
    listOPosts, listClasses = loadDataSet()
    myVocabList = createVocabList(listOPosts)
    trainMat = []
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    p0V, p1V, pAb = trainNB0(np.array(trainMat), np.array(listClasses))
    testEntry = ['love', 'my', 'dalmation']
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb))
    testEntry = ['stupid', 'garbage']
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb))

if __name__ == '__main__':
    testingNB()

4.5.4 准备数据：文档词袋模型

朴素贝叶斯词袋模型：

复制代码

def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0] * len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec

4.6 示例：使用朴素贝叶斯过滤垃圾邮件

示例：使用朴素贝叶斯对电子邮件进行分类

收集数据：提供文本文件
准备数据：将文本文件解析成词条向量
分析数据：检查词条保证解析的争取性
训练算法：使用之前建立的trainNB0()函数
测试算法：使用classifyNB(),并且建构一个新的测试函数来计算文档集的错误率。
使用算法：构建一个完整的程序对一组文档进行分类，将错分的文档输出到屏幕上。

4.6.1 准备数据：切分文本

4.6.2 测试算法：使用朴素贝叶斯进行交叉验证

文件解析及完整的垃圾邮箱测试函数：

复制代码

def spamTest():
    docList = []
    classList = []
    fullText = []
    ## 导入文件夹spam与ham想的文件，并将它们解析为词列表
    docList = [];
    classList = [];
    fullText = []
    for i in range(1, 26):
        wordList = textParse(open('./resource/email/spam/%d.txt' % i, encoding="ISO-8859-1").read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList = textParse(open('./resource/email/ham/%d.txt' % i, encoding="ISO-8859-1").read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    ## 随机构建训练集
    vocabList = createVocabList(docList)
    trainingSet = range(50);
    testSet = []
    for i in range(10):
        randIndex = int(np.random.uniform(0, len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del (list(trainingSet)[randIndex])
   ## 对测试集分类
    trainMat = [];
    trainClasses = []
    for docIndex in trainingSet:
        trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))
    errorCount = 0
    for docIndex in testSet:
        wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
        if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            errorCount += 1
            print("classification error", docList[docIndex])
    print('the error rate is: ', float(errorCount) / len(testSet))

if __name__ == '__main__':
    spamTest()

4.7 示例：使用贝叶斯分类器从个人广告中获取倾向

示例：使用朴素贝叶斯来发现地域相关的用词：

收集数据：从RSS源收集内容，这里需要对RSS源构建一个接口。
准备数据：将文本文件解析成词条向量。
分析数据：检查词条确保解析的正确性。
训练算法：使用我们之前建立的trainNB0()函数。
测试算法：观察错误率，确保分类器可用。可以修改切分程序，以降低错误率，提高分类结果。
使用算法：构建一个完整的程序，分装所有内容。给定两个RSS源，该程序会显式做常用的公共词。

4.7.1 收集数据：导入RSS源

RSS源分类器及高频词去除函数：

复制代码

import operator
def calcMostFreq(vocabList, fullText):
    '''
    计算出现频率
    :param vocabList: 词汇表
    :param fullText: 全文
    :return: 出现频率最高的30个单词
    '''
    freqDict = {}
    for token in vocabList:
        freqDict[token] = fullText.count(token)
    sortedFreq = sorted(freqDict.items(), key=operator.itemgetter(1), reverse=True)
    return sortedFreq[:30]

import feedparser
def localWords(feed1, feed0):
    docList = []
    classList = []
    fullText = []
    minLen = min(len(feed1['entries']), len(feed0['entries']))
    for i in range(minLen):
        wordList = textParse(feed1['entries'][i]['summary']) ## 每次访问一条RSS源
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList = textParse(feed0['entries'][i]['summary'])
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)
    top30Words = calcMostFreq(vocabList, fullText)
    ## 去掉出出现次数最高的那些词
    for pairW in top30Words:
        if pairW[0] in vocabList: vocabList.remove(pairW[0])
    trainingSet = range(2 * minLen);
    testSet = []
    for i in range(20):
        randIndex = int(np.random.uniform(0, len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del (list(trainingSet)[randIndex])
    trainMat = [];
    trainClasses = []
    for docIndex in trainingSet:
        trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))
    errorCount = 0
    for docIndex in testSet:
        wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
        if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            errorCount += 1
    print('the error rate is: ', float(errorCount) / len(testSet))
    return vocabList, p0V, p1V

if __name__ == '__main__':
    ny = feedparser.parse('http://newyork.craigslist.org/stp/index.rss')
    sf = feedparser.parse('http://sfbay.craigslist.org/stp/index.rss')
    vocabList, pSF, pNY = localWords(ny, sf)

4.7.2 分析数据：显示地域相关的用词

最具表征性的词汇显示函数：

复制代码

def getTopWords(ny, sf):
    vocabList, p0V, p1V = localWords(ny, sf)
    topNY = []; topSF = []
    for i in range(len(p0V)):
        if p0V[i] > -6.0: topSF.append((vocabList[i], p0V[i]))
        if p1V[i] > -6.0: topNY.append((vocabList[i], p1V[i]))
    sortedSF = sorted(topSF, key=lambda pair: pair[1], reverse=True)
    print("SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**")
    for item in sortedSF:
        print(item[0])
    sortedNY = sorted(topNY, key=lambda pair: pair[1], reverse=True)
    print("NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**")
    for item in sortedNY:
        print(item[0])

if __name__ == '__main__':
    ny = feedparser.parse('http://newyork.craigslist.org/stp/index.rss')
    sf = feedparser.parse('http://sfbay.craigslist.org/stp/index.rss')
    getTopWords(ny, sf)

4.8 本章小结

使用概率有时比使用硬规则更为有效。

贝叶斯概率及贝叶斯准则提供了一种利用已知值来估计未知概率的有效方法。

下溢出：通过对概率去对数来结局

词袋模型在解决文档分类问题上比词集模型有所提高。

第4章 基于概率论的分类方法： 朴素贝叶斯

4.1 基于贝叶斯决策理论的分类方法

4.2 条件概率

4.3 使用条件概率来分类

4.4 使用朴素贝叶斯进行文档分类

4.5 使用Python进行文本分类

4.5.1 数据准备：从文本中构建词向量

4.5.2 训练算法：从词向量计算概率

4.5.3 测试算法：根据事项情况修改分类器

4.5.4 准备数据：文档词袋模型

4.6 示例：使用朴素贝叶斯过滤垃圾邮件

4.6.1 准备数据：切分文本

4.6.2 测试算法： 使用朴素贝叶斯进行交叉验证

4.7 示例：使用贝叶斯分类器从个人广告中获取倾向

4.7.1 收集数据：导入RSS源

4.7.2 分析数据：显示地域相关的用词

4.8 本章小结

第4章基于概率论的分类方法：朴素贝叶斯

4.6.2 测试算法：使用朴素贝叶斯进行交叉验证