TypechoJoeTheme

IT技术分享

统计
NLP

中文分词 (Segmentation) 详解——自然语言处理的关键

2017-09-09
/
0 评论
/
677 阅读
/
正在检测是否收录...
09/09

什么是分词

通过计算机把组成文本的字串自动转换为词串的过程被称为分词

中文分词

英文名:Segmentation

中文通常需要分词

英文分词

英文名:Tokenization

英语通常不需要分词

分词的方法

基于词表的方法

需要配备词表

最大匹配法

  • 正向最大匹配法(MM)
  • 逆向最大匹配法(RMM)

全切分+路径选择

序列标注方法

又叫 “合”词法

  • 无需词表、需切分语料
  • 把切分问题看作给句子中每个字加标记的过程
  • 四个标记:(1) B 词首 (2) M 词中(3) E 词尾 (4)单独成词 S

提/B 高/E 人/B 民/E 的/S 生/B 活/E 水/B 平/E

分词结果的评价

准确率

英文名:precision

准确率(P) =切分结果中正确分词数/切分结果中所有分词数*100%

召回率

英文名:recall

召回率(R)=切分结果中正确分词数/标准答案中所有分词数*100%

F-评价

英文名: F-measure

综合准确率和召回率的评价指标,F-指标=2PR/(P+R)

分词的关键

  • 歧义消解
  • 未登录词识别

未完待续...

分词
朗读
赞 · 0
版权属于:

IT技术分享

本文链接:

https://idunso.com/archives/2812/(转载时请注明本文出处及文章链接)