TypechoJoeTheme

IT技术分享

统计
NLP

词性标注(POS)各大方法汇聚——自然语言处理的核心

2017-09-14
/
0 评论
/
655 阅读
/
正在检测是否收录...
09/14

词性标注的难点

未登录词

如果对未登录词不了解,请点这里

未登录词视作兼类词,可能是任何一个词类,均匀分布

  • 更可能是名词,不大可能是限定词等
  • 对于英文等语言可以利用形态特性(词缀)、拼写特性判定(首字母大小写)

对未登录词可以采用下列方式来处理

  • 依照出现一次的词(hapax legomenon)的规律处理
  • 将出现一次的词的分布平均作为未登录词的分布

未登录词的词性标注是难点

规则词性标注

方法描述

查词典,给句中各词标记所有可能的词类标记
应用规则,逐步删除错误的标记,最终只留下正确的标记

统计词性标注

可查看隐马尔可夫词类标注 (POS) ——基于统计的词性标注

统计规则结合

可查看基于转换的词类标注(POS)—— 统计规则结合的词性标注

决策树词性标注

神经网络词性标注

最大熵词性标注

未完待续

词性标注POS
朗读
赞 · 0
版权属于:

IT技术分享

本文链接:

https://idunso.com/archives/2825/(转载时请注明本文出处及文章链接)