TypechoJoeTheme

IT技术分享

统计
NLP

基于转换的词类标注(POS)—— 统计规则结合的词性标注

2017-09-14
/
0 评论
/
704 阅读
/
正在检测是否收录...
09/14

统计规则结合

使用规则和统计两个方面的特性,应用规则进行标注,规则称为转换

  • 规则不是人工总结,而是应用机器学习的方法学习得到。
  • 使用的机器学方法通常称作基于转换的学习(Transformation-Based Learning or TBL)

激发环境

英文名:triggering environment

描述了应用该转换需要满足的条件

重写规则

英文名:rewriting rule

又名转换规则,描述了应用规则所要进行的动作

  • 重写规则形如 $t_1 \rightarrow t_2$,含义是把词类标记 $t_1$ 改作 $t_2$
  • 注意重写规则与一般意义上的重写规则的区别
转换规则可以视为一种纠错规则

在转换规则使用前,待标注的句子已经进行过初步标注,转换规则负责改正其中的错误标注

词性标注

词性标注的步骤

  • 准备未加标注的训练语料 C
  • 对训练语料进行初标注,形成语料 $C_{0}$
  • 对 $C_{0}$ 进行人工校对,形成正确标注的语料库 S
  • 将 $C_{0}$ 与 S 进行对比,学习转换规则
  • 评价学到的转换规则,选择能最大限度地降低 $C_{0}$ 错误率的规则 t
  • 对 $C_{0}$ 应用转换 t,产生语料 $C_{1}$
  • 对比 $C_{1}$ 与 S,按照上述过程继续学习、应用转换规则,直到错误率不再有明显降低为止

初标注器的选择

学习到的转换规则和初标注器有关,选择不同的初标注器学习到的转换规则不同

  • 可以用 dumb tagger 进行初始标注
  • 可以用基于规则的词类标注器进行标注
  • 可以用基于隐马模型的词类标注器进行标注

用学到的规则进行词类标注时,应保证和学习规则时用相同初标注器

转换规则的排列顺序

转换规则的排列顺序是有意义的

  • 先学到的转换规则先使用,后学到的后使用,后学到的规则的作用对象是先学到的规则的处理结果
  • 先学到的规则效果明显、后学到的规则对错误率的改进较小

规则的使用过程类似于创作油画

激发环境的选择

激发环境的选择确定了利用的上下文知识的多少

  • 理论上,利用的上下文知识越多性能越好
  • 若对激发环境不加限制,导致学习效率严重下降,需进行权衡

Brill 使用激发环境模板来限制可以使用的环境

词性标注POS
朗读
赞 · 0
版权属于:

IT技术分享

本文链接:

https://idunso.com/archives/2823/(转载时请注明本文出处及文章链接)