顿搜
贝叶斯(Bayes)与朴素贝叶斯——机器学习经典分类算法
贝叶斯算法
贝叶斯:Thomas Bayes, 英国数学家
贝叶斯方法源于他生前为解决一个“逆概率”问题写的一篇文章
正向概率
假设袋子里面有 N 个白球,M 个黑球,那么从袋子中摸出白球(黑球)的概率就叫做正向概率
逆向概率
假设事先并不知道白球与黑球的比例,然后摸出 n 个球,观察它们的颜色,然后对袋子的中的白球和黑球的比例作出预测
即事先并不知道事件的分布,通过观察,预测其分布
贝叶斯公式
$$P(c|w) = \frac{P(c)P(w|c)}{P(w)}$$
模型比较理论
- 最大似然: 最符合观测数据的最有优势,即 $p(w|c)$ 越大越有优势
- 奥卡姆剃刀:先验概率 $p(c)$ 较大的模型有较大的优势
应用实例
拼写错误纠正
w 表示书写的错误词,c 表示可能的正确词,
$p(w|c)$ 可以通过编辑距离求得
因为是比较 $p(c|w)$,取结果最大者为正确结果,所以只需计算分子即可,因为分母都相同,不需要计算
垃圾邮件过滤
w 表示邮件里面的词,c 表示类别(是否为垃圾邮件)
$p(w|c)$ 可根据已知垃圾邮件中包含词 w 的概率求得
朴素贝叶斯
在上述垃圾邮件的例子中 w 由 $w_1, w_2, ...w_n$ 组成,那么
$$p(w|c) = p(w_1|c)p(w_2|w1,c),,,p(w_n|w_{n-1},w_{n-2},...,w_1, c)$$
在贝叶斯的基础上,假设特征之间是相互独立的, 就转化为了朴素贝叶斯,那么
$$p(w|c) = p(w_1|c)p(w_2|c),,,p(w_n|c)$$