TypechoJoeTheme

IT技术分享

统计
ML

统计建模(Statistical Modeling)——统计机器学习建模介绍

2017-09-15
/
0 评论
/
603 阅读
/
正在检测是否收录...
09/15

什么是统计建模

  • 某随机现象,概率分布未知。
  • 拥有该随机现象的一组样本数据 (训练数据), 或者拥有该数据的部分知识。
  • 基于样本数据或部分知识对随机现象所服从的概率分布进行推断,并求解这个概率分布

这就是统计建模。

所建立的模型(概率分布),可以对随机现象的未来行为进行预测。

模型的种类

计算语言学常常处理序列标注问题,为给定的观察序列标注标记序列

令 O 和 S 分别代表观察序列和标记序列

  • $O = o_{1}o_{2},...,o_{N}$,
  • $S = s_{1}s_{2},...,s_{N}$

对给定的观察序列 O 标注标记序列 S 的过程可以描述为

$$s^{*} = \underset{s}{\mathrm{argmax}} p(s|o) $$

为此需要基于训练数据,对 o 和 s 进行统计建模,通常有两种方式

生成模型

着眼于构建 o 和 s 的联合分布 $P(s,o)$

在利用生成模型进行序列标注时,理论上需要

$$p(s|o) = \frac {p(s, o)}{\sum_{s'}p(s',o)}$$

判别模型

着眼于构建 o 和 s 的条件分布 $p(s|o)$

判别模型与序列标记问题有较好的对应性

模型对比

优化准则不同

  • 生成模型优化训练数据的联合分布
  • 判别模型优化训练数据的条件分布

观察序列的处理不同

  • 生成模型中,观察序列作为模型的一部分
  • 判别模型中,观察序列只作为条件,因此可以针对观察序列设计灵活的特征

训练复杂度不同

  • 判别模型训练复杂度较高

是否支持无指导训练

  • 生成模型支持无指导训练,判别模型无指导训练代价高
朗读
赞 · 0
版权属于:

IT技术分享

本文链接:

https://idunso.com/archives/2827/(转载时请注明本文出处及文章链接)