昨天我们介绍了马尔可夫过程,今天我们介绍个与它原理相反的--贝叶斯过程。贝叶斯过程的核心思想就是用现在推出过去。任何符合贝叶斯公式的过程都可以称为贝叶斯过程。相信大家对贝叶斯公式一定很不陌生,作为一个刚不久登上高考考纲的一个新的高中数学知识点,其难度是中等偏上,不用理解,只要会用就行。
公式是
P(A|B) = [P(B|A) * P(A)] / P(B)
其中P(A)表示在没有任何新的证据下, A发生的概率。
P(B)是B发生的总概率。
P(B|A)表示在A为真的情况下,我们观察到B的概率。
P(A|B)就是你想知道的东西的概率(或者说是题目中问什么)
下面介绍几种常见的用法
1.医学分析
这个是贝叶斯公式最常用的地方,医学分析上经常会用贝叶斯公式,利用患者目前的情况推出他患病的概率。医生会直接在R语言中安装贝叶斯统计包,然后将患者的情况编程数据输入进去,就会得出结果。
顺便一提, R语言中要安装贝叶斯统计包输入代码是
library(brms)
如何使用就以后介绍。
2.信息过滤
信息光的原理比较复杂,而且它没有直接利用贝叶斯公式。它的核心是比较,而不是计算。就拿垃圾邮件来说。首先系统会将这封邮件转换成数据,用集合思想来说,就是将这封邮件看成字母或文字的集合。注意了,这里是集合。而我们贝叶斯公式里面是确确实实的数据。也就是说,如果要用贝叶斯公式,就得一个字一个字的进行分析。这种计算量是难以想象的。聪明的工程师们发明一种新的办法,引入一种叫朴素假设的东西。将这封邮件是垃圾邮件的概率视为邮件每个词可能是出自于垃圾邮件的概率乘起来。然后他们会和事先做好的模型进行比较。这里的模型简单的说就是可能是垃圾邮件的概率。这个概率也是用上述方法进行计算的。但由于词汇的不同,各个邮件会有各个邮件的比较方法。如果得出来的结果大于这个概率,那么它就被视为垃圾邮件。不过我这个说法是不严谨的,实际的模型数量比我们想象的还要多。
3.内容推荐
许多网站的套路,在里面安个贝叶斯模型,自动分析我们的喜好,从而给我们推更多感兴趣的内容,赚更多钱。它会根据你的浏览记录来推出你喜欢这种类型的概率是多少,然后再根据所有人喜欢这种类型的概率。结合贝叶斯公式得到,你可能喜欢你点击的这种类型的概率是多少。如果大于某个值,那么它就会给你推这种内容。当然,这个说法也是很不严谨的,毕竟世界上的网站数量是我们不敢想的。
4.图像识别
这个非常有意思,系统会根据图片中物品的几个属性来推出它可能是某样东西的概率。记住是概率,不是定值。比如你给系统一张狗的照片。有尾巴、耳朵,还有许多犬科动物拥有的特征,你可能会以为他给你的答案肯定是狗,但其实也有可能是狼。首先根据前面两项就能确定它是哺乳动物。又根据犬科动物特征能确定它是犬科动物,但是你没有给参照物,也就意味着,系统可能不知道这张照片中动物的体型有多大。所以下次在你将喜欢的卡通人物输入百度识图的时候,应该考虑一下他是不是一个有版权的。