NLP

歧义(Ambiguity)现象及其消解——自然语言处理分词难点一

顿搜

2017-09-09

0 评论

766 阅读

正在检测是否收录...

09/09

歧义的类型

交集型歧义

字串 AJB 中，若AJ $\in$ D、 JB $\in$ D、 A $\in$ D、 B $\in$ D ，则 AJB 为交集型歧义字段。

D 代表词表

此时， AJB 有 AJ/B、 A/JB 两种切分形式。其中 J 为交集字段。

从小/学/电脑
从/小学/毕业

交集型歧义的链长

交集型歧义字段中含有交集字段的个数，称为链长。

从小学，链长是 1
结合成分，链长是 2
为人民工作，链长是 3
中国产品质量，链长是 4
部分居民生活水平，链长是 6
治理解放大道路面积水，链长是 8

组合型歧义

字串 AB 中，若 AB $\in$ D、 A $\in$ D、 B $\in$ D，则 AB 为组合型歧义字段。

此时， AB 有 AB、 A/B 两种切分形式。

美军/中将/竟公然说
新建地铁/中/将/禁止商业摊点

混合型歧义

同时包含交集型歧义和组合型歧义的歧义字段

这样的/人才/能/经受住考验
这样的/人/才/能/经受住考验
这样的/人/才能/经受住考验

真假歧义

真歧义

歧义字段在不同的语境中确实有多种切分形式

这块/地/面积/还真不小
地面/积/了厚厚的雪

伪歧义

歧义字段单独拿出来看有歧义，但在(所有)真实语境中仅有一种切分形式可接受

挨/批评(√)
挨批/评(×)

发现歧义

歧义消解的前提是发现歧义。分词算法应该有能力检测到输入文本中何处出现了歧义切分现象。

MM和RMM法均没有检测歧义的能力

双向最大匹配

即同时采用正向最大匹配法 (MM) 和逆向最大匹配法 (RMM) ，简写为 MM + RMM

如果 MM 法和 RMM 法给出同样的结果，则认为没有歧义，若不同，则认为发生了歧义。

双向最大匹配法不能发现所有的歧义，存在盲点
最大匹配法不能发现组合型歧义（长词优先）

MM、 RMM:他/从/马上/下来

在一定条件下（链长为偶数），双向最大匹配法也不能发现交集型歧义

MM:原子/结合/成分/子时
RMM:原子/结合/成分/子时

MM+逆向最小匹配法

可发现组合型歧义

全切分算法

可发现所有切分歧义

提/高/人/民/生/活/水/平
提高/人/民/生/活/水/平
提高/人民/生/活/水/平
提高/人民/生活/水/平
提高/人民/生活/水平

歧义消解

基于记忆的伪歧义消解

鉴于伪歧义的消解与上下文无关，对伪歧义型高频交集型歧义切分，可以把它们的正确（唯一）切分形式预先记录在一张表中，其歧义消解通过直接查表即可实现

基于规则的歧义消解

P[+R+M+Q+A|Z]+”马上” ——> 马+上

他从大红/马/上/下来
这件事需要/马上/办

“一起” +~V ——> 一+起

我们/一起/去故宫
一/起/恶性交通事故

基于统计的歧义消解

在词图上寻找统计意义上的最佳路径

如何评价最佳路径

基于一元模型进行评价

统计词表中每个词的词频，并将其转换为路径代价 $C = - \log( \frac{f}{N})$
切分路径的代价为路径上所有词的代价之和
寻求代价最小的路径

其他消歧策略

交互式处理策略(interactive): 人机互助进行处理
子语言策略(sublanguage) : 限定处理文本的领域
受控语言策略(controlled language) : 限定语言的词汇和句法，降低复杂度

歧义

朗读

赞 · 0

版权属于：

IT技术分享

本文链接：

https://idunso.com/archives/2813/（转载时请注明本文出处及文章链接）

作品采用：

《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权