TypechoJoeTheme

IT技术分享

统计
NLP

未登录词 (OOV) 的精确识别——自然语言处理分词难点二

2017-09-09
/
0 评论
/
657 阅读
/
正在检测是否收录...
09/09

未登录词类别

中国人名

李素丽 老张 李四 王二麻子

中国地名

定福庄 白沟 三义庙 韩村河 马甸

翻译人名

乔治·布什 叶利钦 包法利夫人 酒井法子

翻译地名

阿尔卑斯山 新奥尔良 约克郡

机构名

方正公司 联想集团 国际卫生组织 外贸部

商标字号

非常可乐 乐凯 波导 杉杉 同仁堂

专业术语

万维网 主机板 模态逻辑 贝叶斯算法

缩略语

三个代表 五讲四美 打假 扫黄打非 计生办

新词语

温拿、卢瑟、给力、吊丝、骚年

未登录词识别难度

未登录词没有明确边界

  • 许多未登录词的构成单元本身都可以独立成词
  • 传统上,每一类未登录词都要构造专门的识别算法
在序列标注法中,未登录词无需单独处理

未登录词识别依据

内部构成规律

即用字规律

中文人名

在汉语的未登录词中,中国人名是规律性最强,也是最容易识别的一类

中国人名一般由以下部分组合而成

张、王、李、刘、诸葛、西门

李素丽,王杰、诸葛亮

  • 前缀

老王,小李

  • 后缀

王老,赵总

识别方法

计算一个可能的人名字串的概率,若其概率大于某个阈值,则判别为人

外部环境依据

即依据上下文识别

未登录词OOV
朗读
赞 · 0
版权属于:

IT技术分享

本文链接:

https://idunso.com/archives/2814/(转载时请注明本文出处及文章链接)