TypechoJoeTheme

IT技术分享

统计
NLP

基于上下文无关文法的句法分析简介

2017-10-05
/
0 评论
/
759 阅读
/
正在检测是否收录...
10/05

以“词”为单位的分析技术

  • 词语切分 (segmentation, tokenization)
  • 形态分析 (morphological analysis, lemmatization, stemming)
  • 词性标注 (part-of-speech tagging)

以“句”为单位的分析技术

  • 句法分析 (syntactic parsing)

以“篇”为单位的分析技术

  • 篇章结构分析 (discourse parsing)

句法分析关心句子的组成规律(词如何组成句子? )

句法学(syntax)

语言学中研究句子组成规则的学科是句法学

句子成分分析

  • 句子是词的线性序列,但词和词之间结合的紧密程度并不一样。
  • 句子在构造上具有层次性,较小的成分还可以进一步组成较大的成分
  • 不同性质的成分可以有不同的句法功能和分布,可以区分成不同的类型

短语

英语中的短语

  • 名词性短语(NP)
  • 动词性短语(VP)
  • 介词短语(PP)
  • 形容词性短语(AP)

汉语中的短语

  • 名词性短语(np)
  • 动词性短语(vp)
  • 形容词性短语(ap)
  • 处所词性短语(sp)
  • 时间词性短语(tp)
  • 数量短语(mp)
  • 介词短语(pp)

句法知识的形式化

上下文无关文法 (CFG) 是最常用的句法知识形式化工具

形式语法系统

英文名:grammar formalism

  • 功能合一语法 (FUG)
  • 词汇功能语法 (LFG)
  • 中心词驱动的短语结构语法(HPSG)

上下文无关文法是一个核心组成部分

转换生成语法

短语结构文法

乔姆斯基的短语结构文法分为

  • 上下文无关文法(CFG)
  • 上下文有关文法

上下文无关文法

  • 作为生成装置: 生成语言中的句子
  • 作为识别装置: 判别句子是否合法
  • 作为分析装置: 产生给定句子的句法结构(句法分析)

CFG 的形式定义

一个上下文无关文法 G 由四个部分组成,可记作 G = { $V_{N} , V_{T} , S , P$ }

$V_{N}$ 是非终结符号组成的有限集合
$V_{T}$ 是终结符号组成的有限集合
$V_{N}V_{T} = \emptyset$
S 是开始符号, $S \in V_{N}$
P 是一组重写规则组成的集合,每个重写规则具有下面的形式
$A \rightarrow \alpha$,其中 $A \in V_{N}$ , $a \in (V_{N} \cup V_{T})^{*}$

NLTK句法树工具

句法分析

句法分析的任务

  • 对给定的自然语言句子,分析并得到其句法结构。
  • 句子的句法结构通常表示为句法树

歧义

对于句法分析而言,所谓歧义指的是对于同一个句子,按照指定的文法,会产生多种分析结果。

  • 通常句子越长,歧义现象越严重。
  • 对于有歧义的句子,句法分析器应能产生一个句子所有可能的句法分析树
  • 句法排歧指的是根据各种知识,选择正确分析结果的过程。

句法分析过程

  • 利用句法分析算法生成句子所有可能的句法分析树
  • 句法排歧
朗读
赞 · 0
版权属于:

IT技术分享

本文链接:

https://idunso.com/archives/2833/(转载时请注明本文出处及文章链接)