顿搜
歧义(Ambiguity)现象及其消解——自然语言处理分词难点一
歧义的类型
交集型歧义
字串 AJB 中,若AJ $\in$ D、 JB $\in$ D、 A $\in$ D、 B $\in$ D , 则 AJB 为交集型歧义字段。
D 代表词表
此时, AJB 有 AJ/B、 A/JB 两种切分形式。其中 J 为交集字段。
从小/学/电脑
从/小学/毕业
交集型歧义的链长
交集型歧义字段中含有交集字段的个数,称为链长。
从小学, 链长是 1
结合成分, 链长是 2
为人民工作, 链长是 3
中国产品质量, 链长是 4
部分居民生活水平, 链长是 6
治理解放大道路面积水, 链长是 8
组合型歧义
字串 AB 中,若 AB $\in$ D、 A $\in$ D、 B $\in$ D, 则 AB 为组合型歧义字段。
此时, AB 有 AB、 A/B 两种切分形式。
- 美军/中将/竟公然说
- 新建地铁/中/将/禁止商业摊点
混合型歧义
同时包含交集型歧义和组合型歧义的歧义字段
这样的/人才/能/经受住考验
这样的/人/才/能/经受住考验
这样的/人/才能/经受住考验
真假歧义
真歧义
歧义字段在不同的语境中确实有多种切分形式
这块/地/面积/还真不小
地面/积/了厚厚的雪
伪歧义
歧义字段单独拿出来看有歧义,但在(所有)真实语境中仅有一种切分形式可接受
挨/批评(√)
挨批/评(×)
发现歧义
歧义消解的前提是发现歧义。分词算法应该有能力检测到输入文本中何处出现了歧义切分现象。
MM和RMM法均没有检测歧义的能力
双向最大匹配
即同时采用正向最大匹配法 (MM) 和 逆向最大匹配法 (RMM) ,简写为 MM + RMM
如果 MM 法和 RMM 法给出同样的结果,则认为没有歧义,若不同,则认为发生了歧义。
- 双向最大匹配法不能发现所有的歧义,存在盲点
- 最大匹配法不能发现组合型歧义(长词优先)
MM、 RMM:他/从/马上/下来
在一定条件下(链长为偶数),双向最大匹配法也不能发现交集型歧义
MM:原子/结合/成分/子时
RMM:原子/结合/成分/子时
MM+逆向最小匹配法
可发现组合型歧义
全切分算法
可发现所有切分歧义
提/高/人/民/生/活/水/平
提高/人/民/生/活/水/平
提高/人民/生/活/水/平
提高/人民/生活/水/平
提高/人民/生活/水平
歧义消解
基于记忆的伪歧义消解
鉴于伪歧义的消解与上下文无关, 对伪歧义型高频交集型歧义切分, 可以把它们的正确(唯一) 切分形式预先记录在一张表中, 其歧义消解通过直接查表即可实现
基于规则的歧义消解
P[+R+M+Q+A|Z]+”马上” ——> 马+上
他从大红/马/上/下来
这件事需要/马上/办
“一起” +~V ——> 一+起
我们/一起/去故宫
一/起/恶性交通事故
基于统计的歧义消解
在词图上寻找统计意义上的最佳路径
如何评价最佳路径
基于一元模型进行评价
- 统计词表中每个词的词频,并将其转换为路径代价 $C = - \log( \frac{f}{N})$
- 切分路径的代价为路径上所有词的代价之和
- 寻求代价最小的路径
其他消歧策略
- 交互式处理策略(interactive):
人机互助进行处理 - 子语言策略(sublanguage) :
限定处理文本的领域 - 受控语言策略(controlled language) :
限定语言的词汇和句法,降低复杂度