顿搜
飞过闲红千叶,夕岸在哪
类目归类
这就是统计建模。
所建立的模型(概率分布),可以对随机现象的未来行为进行预测。
计算语言学常常处理序列标注问题,为给定的观察序列标注标记序列
令 O 和 S 分别代表观察序列和标记序列
对给定的观察序列 O 标注标记序列 S 的过程可以描述为
$$s^{*} = \underset{s}{\mathrm{argmax}} p(s|o) $$
为此需要基于训练数据,对 o 和 s 进行统计建模,通常有两种方式
着眼于构建 o 和 s 的联合分布 $P(s,o)$
在利用生成模型进行序列标注时,理论上需要
$$p(s|o) = \frac {p(s, o)}{\sum_{s'}p(s',o)}$$
着眼于构建 o 和 s 的条件分布 $p(s|o)$
判别模型与序列标记问题有较好的对应性