顿搜
常见的几种贝叶斯决策论对比——贝叶斯算法的决策理论
贝叶斯决策理论
如果想了解贝叶斯算法,请查看贝叶斯(Bayes)与朴素贝叶斯——机器学习经典分类算法假设模式分类的决策可由概率形式描述,并假设问题的概率结构已知。
规定以下记号
- 有 c 个类别,为 $\omega_1,\omega_2,...,\omega_c$,类别 $\omega_i$ 的先验概率为 $P(\omega_i)$ (prior),且 $\sum_{i=1}^c P(\omega_i)=1$
- 样本的特征矢量 $x\in R^d$,$x$ 对样本类 $\omega_i$ 的条件概率密度为 $p(x|\omega_{i})$,称为似然(likelihood)
那么,已知样本 $x$ ,其属于类别 $\omega_i$ 的后验概率 $P(\omega_{i}| x)$(posterior)就可以用贝叶斯公式来描述
$$ P(\omega_{i}|x)=\frac{p(x|\omega_{i})P(\omega_{i})}{p(x)}=\frac{p(x|\omega_{i})P(\omega_{i})}{\sum_{j=1}^{c}p(x|\omega_{j})P(\omega_{j})} $$
分母被称为证据因子 (evidence)
后验概率当然也满足和为1,$\sum_{j=1}^cP(\omega_j|\textbf x)=1$。
最大后验概率决策
英文名:Maximum a posteriori decision
当条件概率密度和先验概率已知时,可用最大后验概率决策,将样本的类别判为后验概率最大的那一类。
决策规则为:
$$\underset{i}{\mathrm{argmax}} P(\omega_{i}|x)$$
如果样本 $x$ 属于类别 $\omega_i$ 的后验概率 $P(\omega_{i}| x)$ 大于其它任一类别的后验概率
$P(\omega_{j}|x)$, $j \in${1,...,c} $\setminus$ {i},则将该样本分类为类别 $\omega_{i}$。
最小错误率决策
英文名:Minimum error rate decision
从平均错误率(平均误差概率) $P(error)$ 最小的角度出发,讨论模型如何来对样本的类别进行决策。
平均错误率的表达式为
$$ P(error)=\int p(error,\textbf x)\text d\textbf x = \int P(error|\textbf x)p(\textbf x)\text d\textbf x $$
如果对于每个样本 $x$ ,保证 $P(error|x)$ 尽可能小,那么平均错误率就可以最小。
$P(error|x)$ 的表达式为
$$P(error|\textbf x)=1-P(\omega_i|\textbf x)$$
从这个表达式可以知道,最小错误率决策等价于最大后验概率决策。
期望风险最小化决策
如果想了解风险评估,请查看损失函数与风险评估详细介绍——统计机器学习模型评价条件风险
损失函数为 $L(y,\alpha(x))$,记为 $\lambda_{ij}$,则条件风险为
$$ R(\alpha_i|x)=\sum_{j=1}^{c}\lambda_{ij}P(\omega_{j}|x) $$
则期望风险为
$$R_{exp}(\alpha)=E [L(y,\alpha(x)) ]= \int_{X \times Y} L(y,\alpha(x))P(y|x)p(x)dxdy = \int R(\alpha(x) | x) p(x)dx$$
与错误率的关系
为了看得清楚一点,对比一下上面那个平均错误率的式子
$$R_{exp}(\alpha)=\int R(\alpha(x)|x)p(x)dx$$
$$P(error)= \int P(error|x)p(x)dx$$
显然,风险在这里起到的作用和错误率在之前起到的作用相同
因此风险是错误率的一个替代品,一种推广。
期望风险最小化
类似之前的分析,选择对于每个样本都保证条件风险尽可能小的分类规则 $α(x)$,将使期望风险最小化。
由此可得,最小风险决策的决策规则为:
$$ \underset{i}{\mathrm{argmin}}R(\alpha_{i}|x) $$
如果将损失取成 0-1 损失,即当 $j \ne i$ 时 $λ_{ij}=1$ ,可以推导出条件风险为
$$ R(\alpha_{i}|x)=\sum_{j=1}^{c}\lambda_{ij}P(\omega_{j}|x)=\sum_{j \ne i}P(\omega_{j}|x)=1-P(\omega_{i}|x) $$
显然这个形式和最小错误率决策的式子一模一样。
因此,在使用 0-1 损失的时候,最小风险决策退化为最小错误率决策。