顿搜
条件马尔可夫模型(CMM)简介——基于统计的词性标注二
HMM 模型词性标注缺点
如果想了解隐马尔可夫词类标注,请查看隐马尔可夫词类标注 (POS) ——基于统计的词性标注- HMM是生成模型
$$p(S,O) = p(s_{1})\prod_{t=2}^{N} p(s_{t}|s_{t-1}) \prod_{t=1}^{N} p(o_{t}|s_{t})$$
训练时优化的目标是 $p(S,O)$
可以采用Baum-Welch算法训练参数
- 过强的独立性假设限制了模型的改进,无法使用关于观察值的多重特征以及不相互独立的特征
- 模型训练使用联合分布、标注使用条件分布,对性能造成负面影响
条件马尔可夫模型
英文名:Conditional Markov Model
针对 HMM 的缺陷,提出条件马尔可夫模型,条件马尔可夫模型是判别模型、有向图模型
如果想了解有向图模型,请查看图模型(Graphical Model)简介——描述随机变量的依赖关系条件马尔可夫模型的分解式
$$p(S|O) = \prod_{t=1}^{N} p(s_{t}|s_{t-1},O)$$
- 条件马尔可夫模型中因子是条件分布,无需进行全局归一化
- 观察序列在因子中作为条件出现,使得建模特征无需考虑特征间的独立性
- 对标记转移分布,通常采用最大熵的建模原则
$$p(s_{t}|s_{t-1},O) = \frac{1}{Z(s_{t-1},O,t)}\exp(\sum_{k}\lambda_{k}f_{k}(s_{t-1},s_{t},O,t))$$
其中
$$Z(s_{t-1},O,t) = \sum_{t} \exp(\sum_{k}\lambda_{k}f_{k}(s_{t-1},s_{t},O,t))$$
如果想了解最大熵建模,请查看最大熵模型 Maximum Entropy——统计建模技术之一最大熵马尔可夫模型
英文简称:MEMM
最大熵马尔可夫模型 (MEMM) 是一种简化了的条件马尔可夫模型(已被应用于NLP)
$$p(s_{t}|s_{t-1},O) = p(s_{t}|s_{t-1},O_{t}) = p_{s_{t-1}}(s_{t},O_{t})$$
模型训练
条件马尔可夫模型的训练采用极大似然估计法
令训练集为 D={$(S,O)$}
故训练的概率可定义为
$$p(D|\Lambda) = \prod_{S,O} \left [ \prod_{t=1}^{N} p(s_{s}|s_{t-1}, O, \Lambda) \right ]$$
仍属数值最优化问题,可采用数值最优化算法求解参数
对于条件马尔可夫模型,解码仍是 Viterbi 算法
如果想了解Viterbi算法,请查看韦特比(Viterbi)算法与解码问题——隐马尔可夫疑难问题二标记偏执问题
英文名:Label Bias problem
标记转移分布熵值低的情况,都会有标记偏执问题
标记偏执的原因在于局部归一
$$\sum_{s_{t}}p(s_{t}|s_{t-1},O) = 1$$
标记偏执问题给条件马尔可夫模型的应用性能造成很大负面影响
解决的办法是取消局部归一,代之以全局归一