【编译原理】03语法分析

1，语法分析的若干问题

1.1 语法分析器的作用

编译器前端的重要组成部分：

(1) 根据词法分析器提供的记号流，为语法正确的输入构造分析树(或语法树)。

(2) 检查输入中的语法(可能包括词法)错误，并调用出错处理器进行适当处理。

语法分析器：

1、通用的语法分析方法

Cocke-Younger-Kasami算法和Earley算法

2、自上而下

对任何输入串，试图用一切可能的办法，从文法开始符号（根结点）出发，自上而下地为输入串建立一棵语法树；或者说为输入串寻找一个最左推导。

3、自下而上

自上而下的一般方法：消除左递归提取左因子递归下降分析预测分析器
语法分析器在编译器中的位置与作用

1.2 语法错误的处理原则

1.2.1．源程序中可能出现的错误

语法错误

词法错误：非法字符或关键字、标识符拼写错误等

语法错误：语法结构出错，如少分号、{/}不配对等

语义错误

静态语义错误涉及的是编译时可检查出来的错误，如类型不一致、参数不匹配等；

动态语义错误一般是指程序运行时的逻辑错误，如无穷递归、变量为零时作除数等。

大多数错误的诊断和恢复集中在语法分析阶段，一个原因是大多数错误是语法错误，另一个原因是语法分析方法的准确性，它们能以非常有效的方法诊断语法错误。在编译的时候，想要准确地诊断语义或逻辑错误有时是很困难的。

1.2.2．语法错误处理的目标

① 清楚而准确地报告错误的出现，地点正确、不漏报、不错报也不多报；

② 迅速地从每个错误中恢复过来，以便分析继续进行；

③ 对语法正确源程序的分析速度不应降低太多。

1.2.3．语法错误的基本恢复策略

希望编译器的语法分析方式不是遇到一个语法错误就停止，就需要采取某种恢复策略，使得分析在遇到错误时还能够继续进行。

紧急方式恢复：这是最简单的方法，适用于大多数分析方法。

短语级恢复：建立在产生式(CFG)的基础上，以短语为基本分析单元，同时也便于进行语法制导翻译，恢复得比紧急方式要精确，因此被认为是一种较为理想的恢复方式。

出错产生式

全局纠正

例题：

下述两条是有语法错误的语句，其中第一条赋值句结束时忘记加分号：x = a + b y = c + d;

紧急方式： x = a + b + d; -- 丢弃b之后的若干记号，直到遇到同步记号+

短语级恢复：x = a + b; -- 加入分号，使之成为一个赋值句

2，上下文无关文法(CFG)

2.1 CFG的定义与表示

2.1.1 定义

定义3.1 上下文无关文法是一个四元组G =(N，T，P，S)：

① N是非终结符的有限集合(Nonterminals)；

② T是终结符的有限集合(Terminals)，且N∩T=Φ；

③P是产生式的有限集合(Productions)，每个产生式形如: A→α，其中A∈N，被称为产生式的左部，α∈(N∪T)*，被称为产生式的右部，若α=ε，则称A→ε为空产生式(也可以记为A →)；

④ S是非终结符，被称为文法的开始符号(Start symbol)。

2.2.2 例题：

定义简单算术表达式的上下文无关文法G3.1=(N,T,P,S)如下所示。

N={E} T={+,*,(,),--,id} S=E

P:

E → E + E (1)

E → E * E (2)

E → (E) (3)

E → --E (4)

E → id (5)

2.2.3 表示

1．由产生式集表示CFG

文法可以由其产生式集P代替，而不写四元组。CFG的产生式表示也被称为巴克斯范式(BNF)，值得注意的是，规范的BNF中，"→"用"::="表示。

2．产生式的一般读法：

一般情况下，可以将产生式中的记号"→"读作"定义为"或者"可导出"。

3．终结符与非终结符书写上的区分

本教材默认采用区分大小写的方法来区分终结符与非终结符，若不作特殊说明，一般用大写英文字母A、B、C表示非终结符，小写英文字母a、b、c表示终结符，小写希腊字母α、β、δ表示任意的文法符号序列，即大小写混合的英文字母串。

4．产生式的缩写形式

2.2.2的例题 G3.1可以重写为如下形式：E → E + E | E * E | (E) | --E | id

2.2 CFG产生语言的基本方法 ------ 推导

2.2.1 推导定义以及性质

通过推导可以产生CFG所描述的语言。

推导就是从文法的开始符号S开始，反复使用产生式，将产生式左部的非终结符替换为右部的文法符号序列，直到得到一个终结符序列

2.2.2 例题：

文法G(E):

E → E + E (1)

E→ E * E (2)

E → (E) (3)

E → --E (4)

E → id (5)

根据文法G使用最左推导得出终结符序列 "--(id+id)" 。

2.2.3 上下文无关语言(CFL)，最左推导

定义3.3

由CFG G所产生的语言L(G)被定义为:

L(G)称为上下文无关语言(CFL)，ω称为句子。若Sα，α∈(N∪T)*，则称α为G的一个句型。

定义3.4

在推导过程中，若每次直接推导均替换句型中最左边的非终结符，则称为最左推导，由最左推导产生的句型被称为左句型。

类似地，可以定义最右推导与右句型，最右推导也被称为规范推导。

2.3 推导、分析树与语法树

定义3.5 对CFG G的句型，分析树被定义为具有下述性质的一棵树。

① 根由开始符号所标记；

② 每个叶子由一个终结符、非终结符或ε标记；

③ 每个内部结点由一个非终结符标记；

④ 若A→X1X2...Xn是一个产生式，则X1，X2，...，Xn是标记为A的内部结点从左到右所有孩子的标记。若A→ε，则标记为A的结点可以仅有一个标记为ε的孩子。
分析树与文法和语言存在下述关系：

① 每一直接推导(或者每个产生式)，对应一棵仅有父子关系的子树，即产生式左部非终结符"长出"右部的孩子；

② 分析树的叶子从左到右，构成G的一个句型。若叶子仅由终结符标记，则构成一个句子。
分析树与推导的关系：

① 分析树是推导的图形表示，但不能显示推导的顺序；

② 每棵分析树都可以对应惟一的最左推导或最右推导；但每个句子（产生式）不一定只有一棵分析树，也就是说每个句子不一定只有一个最左推导或者最右推导。例：句子id + id * id

例题：

用文法G采用最左推导产生句子id+id*id.

一个句子两棵分析树 (a) 先进行+运算；(b) 先进行*运算；(c) +左结合；(d) +右结合

2.4 二义性与二义性的消除

2.4.1 二义性(Ambiguity)

定义3.7 若文法G对同一个句子产生不止一棵分析树，则称G是二义的。
① 一个句型有多于一棵分析树，仅与文法和句型有关，与采用的推导方法无关；

② 造成二义性的原因，是文法中缺少对文法符号优先级和结合性的规定。

在任何一个程序设计语言中，如果出现了二义性，则表示同一段程序在确定的、相同的环境下反复执行，会得到不同的结果，而这种情况在程序设计中是不允许的。也就是说，任何一个程序设计语言不应该有二义性。

2.4.2 为文法符号规定优先级和结合性

改写文法可以解决二义性问题，但不是唯一的解决方法。比较上述讨论过的二义文法和非二义文法，发现二义文法至少有两个优点：

① 比非二义文法容易理解；

② 分析效率高(分析树低，直接推导步骤少)。

3，语言与文法简介

到目前为止，我们在两个层面上讨论了程序设计语言的结构：从词法分析的层面上看，语言是由字母组成的记号的集合；从语法分析的层面上看，语言是由记号组成的句子的集合。记号可以用正规式描述，句子可以用CFG描述。

程序设计语言的结构均可以用文法来描述。文法无论对程序设计语言的设计还是对编译器的编写，至少在以下三个方面起着重要作用：

① 文法给出了精确的、易于理解的语言结构的说明；

② 以文法为基础的语言，便于加入新的或修改、删除旧的语言结构；

③ 有些类别的文法，可以自动生成高效的分析器。

3.1．为什么用正规式而不用CFG描述程序设计语言的词法

根据推论3.1，CFG既描述程序设计语言的语法又描述词法，而基于下述几个原因，往往采用正规式而不是CFG描述词法：

① 词法规则简单，用正规式描述已足够；

② 正规式的表示比CFG更直观、简洁、易于理解；

③ 有限自动机的构造比下推自动机简单，且分析效率高；

④ 区分词法和语法，为编译器前端的模块划分提供方便。

3.2 正规式和CFG的适用条件

一般情况下，正规式适合描述线性结构，如标识符、关键字、注释等。而CFG适合描述具有嵌套(层次)性质的非线性结构，如不同结构的句子if-then-else、begin-end等。

3.3 形式语言与自动机简介

乔姆斯基(Chomsky)把文法分为四种类型: 0型、1型、2型和3型。文法之间的差异在于对产生式施加不同的限制。

定义3.8 若文法G=(N，T，P，S)的每个产生式α→β中，均有α∈(N∪T)*，且至少含有一个非终结符，β∈(N∪T)*，则称G为0型文法。

对0型文法施加以下第i条限制，即可得到i型文法。

1．G的任何产生式α→β(S→ε除外) 均满足|α|≤|β| (|x|表示x中文法符号的个数)；

2．G的任何产生式形如A→β，其中A∈N，β∈(N∪T)*；

3．G的任何产生式形如A→a 或者A→aB(或者A→Ba)，其中A，B∈N，a∈T。

0型文法也被称为短语文法，任何0型语言都是递归可枚举的，反之，递归可枚举集也必定是一个0型语言。

1型文法就是上下文有关文法，这种文法意味着对非终结符的替换必须考虑上下文，并且一般不允许换成ε串。例如，若αAβ→αγβ是1型文法的产生式，α和β不全为空，则非终结符A只有在左边是α，右边是β这样的上下文中才可能替换成γ。

2型文法就是上下文无关文法，非终结符的替换无需考虑上下文。

3型文法等价于正规式，因而也被称为正规文法或线性文法。

四种类型的文法和它们所描述的语言，以及识别对应语言的自动机分别列举在表中。

4，自上而下分析的一般方法

4.1 基本思想

自上而下分析的基本思想是：对于任何一个输入序列，从文法的开始符号开始，进行最左推导，直到得到一个合法句子或者发现一个非法结构。在推导的过程中试图用一切可能的方法，自上而下、从左到右为输入序列建立分析树。整个分析是一种试探的过程，是反复使用不同产生式谋求与输入序列匹配的过程。

4.2 例题

已知如下文法G(S)，给出输入序列ω=cad，自上而下试探建立分析树的过程。

G(S): S → cAd A → ab | a
试探性质的自上而下分析 (a) 匹配失败，回溯；(b) 匹配成功，接收

(1) 若存在形如A → αβ1|αβ2的产生式，即A产生式中有多于一个候选项的前缀相同(称为公共左因子，或简称左因子)，则可能会造成虚假匹配，使得在分析过程中可能需要进行大量回溯，从而造成分析效率低、语义动作难以恢复以及出错位置的报告不确切等。

(2) 若存在形如A → Aα的产生式，则分析过程中一旦采用了该产生式去替换，就会陷入死循环而使分析无法进行下去。产生式的这种形式被称为左递归。

为了避免上述弱点，需要对文法进行重写。消除左递归，以避免陷入死循环；提取左因子，以避免回溯。

4.3 消除左递归

分类：直接左递归间接左递归

规则1 直接左递归的产生式A→Aα|β （β不以A开头）， A→βA' A'→αA'|ε

规则2 直接左递归的产生式 A→ Aα1 | Aα2 | ... | Aαm |β1 |β2 | ...|βn（所有βi均不以A直接开头或间接开头）， A→β1A'|β2A'|...|βnA' A'→α1A'|α2A'|...αmA'|ε

并不是所有的文法都能消除左递归！！！

4.4 提取左因子

对于有左因子的文法，推导过程中会出现无法确定用A产生式的哪个候选项替换A的情况，这时，可以重写A产生式来推迟这种决定，直到看见足够的输入，能正确决定所需选择为止。这一过程类似于有限自动机的确定化，被称为提取左因子。

算法3.3 提取文法的左因子

输入：文法G

输出：等价的无左因子文法G'

方法：为每个产生式A，找出其候选项中最长公共前缀α，重排A产生式如下，其中γ是不以α为前缀的其他候选项。

A→ αβ1|αβ2| ...|αβn|γ

并用下述产生式替代之。

A→ αA'|γ

A'→ β1|β2| ...|βn

重复此过程，直到所有A产生式的候选项中均不再有公共前缀。

练习：

1、文法G(A):A→aABj | a B→Bb | d

2、文法G(M):M→MaH | H H→b(M) | (M) | b

3、文法G(S):S→AdD | ε A→aAd | ε D→DdA | b | ε

5，FIRST集和FOLLOW集

5.1 FIRST集

算法3.5 计算X的FIRST集合

输入文法符号X

输出 X的FIRST集合

方法应用下述规则：

① 若X是终结符，则FIRST(X)={X}；

② 若X 是非终结符且有X→ε，则加入ε到FIRST(X)；

③ 若X 是非终结符且有X→Y1Y2...Yk，并令Y0=ε，Yk+1=ε，则对所有j(0≤j≤k)，若a∈FIRST(Yj+1)且ε∈FIRST(Yj)，加入a到FIRST(X)。

5.2 FOLLOW

算法3.6 计算所有非终结符的FOLLOW集合

输入文法G

输出 G中所有非终结符的FOLLOW集合

方法应用下述规则:

① 加入#到FOLLOW(S)，其中，S是开始符号，#是输入结束标记；

② 若有产生式A→αBβ，则除ε外，FIRST(β)的全体加入到FOLLOW(B)；

③ 若有产生式A→αB或A→αBβ而ε∈FIRST(β)，则FOLLOW(A)的全体加入FOLLOW(B)。

6，预测分析表

算法3.7 构造预测分析表

输入文法G

输出分析表M

方法应用下述规则：

① 对文法的每个产生式A→α，执行②和③；

② 对FIRST(α)的每个终结符a，加入α到M $A，a$ ；

③ 若ε在FIRST(α)中，则对FOLLOW(A)的每个终结符b(包括#)，加入α到M $A，b$ ；

④ M中其他没有定义的条目均是error。

预测分析表是一个二维数组M $A, a$ 所有的非终结符构成分析表的行下标；所有的终结符构成分析表的列下标，其中包括特殊的结束标志#。 M $A, a$ 中的内容表示当前栈顶为非终结符A且当前输入为终结符a时，分析器要进行的动作。

3.4.5.3 LL(1)文法

定义3.12 一个文法G被称为是LL(1)文法，当且仅当为它构造的预测分析表中不含多重定义的条目。由此分析表所组成的分析器被称为LL(1)分析器，它所分析的语言被称为LL(1)语言。第一个L表示从左到右扫描输入序列，第二个L表示产生最左推导，1表示在确定分析器的每一步动作时向前看一个终结符。
推论3.2 一个文法G是LL(1)的，当且仅当G的任何两个产生式A→α|β，满足下面条件: ① 对任何终结符a，α和β不能同时推导出以a开始的文法符号序列；

② α和β最多有一个可以推导出ε；

③ 若β ε，则α不能推导出以在FOLLOW(A)中的终结符开始的任何文法符号序列。
推论3.2实际上等价于当且仅当G的任何两个产生式A→α|β满足上述三个条件时，为文法G构造的预测分析表中不含多重定义的条目。反之，若不满足三个条件之一，则分析表中有多重定义条目。若条件①不满足，即存在终结符a，α和β同时推导出以a开始的文法符号序列，则根据算法3.7规则②，M $A，a$ 中就会有多重定义条目A→α和A→β；

若条件②不满足，即α和β均可推出ε，则根据算法3.7规则③，任何属于FOLLOW(A)的终结符b(包括#)，M $A，b$ 中就会有多重定义条目A→α和A→β；若条件③不满足，即存在终结符b，它既在FOLLOW(A)中，又在FIRST(α)中，则算法3.7规则②把条目A→α加入到M $A，b$ 中，而规则③又把条目A→β加入到M $A，b$ 中。
LL(1)文法的弱点： (1) 文法比较难写。因为按照人们习惯写出的文法，往往含有左递归和左因子。虽然有成熟的算法可以消除左递归和提取左因子，但改写之后的文法很难读也很难使用。同时对比分析树可以看出，改写后文法构造的分析树不直观且推导步骤增加。 (2) LL(1)文法适应范围有限，对于有些语言，往往写不出它的LL(1)文法。

【编译原理】03语法分析

1，语法分析的若干问题

1.1 语法分析器的作用

1.2 语法错误的处理原则

1.2.1．源程序中可能出现的错误

1.2.2．语法错误处理的目标

1.2.3．语法错误的基本恢复策略

2，上下文无关文法(CFG)

2.1 CFG的定义与表示

2.1.1 定义

2.2.2 例题：

2.2.3 表示

2.2 CFG产生语言的基本方法 ------ 推导

2.2.1 推导定义以及性质

2.2.2 例题：

2.2.3 上下文无关语言(CFL)，最左推导

2.3 推导、分析树与语法树

2.4 二义性与二义性的消除

2.4.1 二义性(Ambiguity)

2.4.2 为文法符号规定优先级和结合性

3，语言与文法简介

3.1．为什么用正规式而不用CFG描述程序设计语言的词法

3.2 正规式和CFG的适用条件

3.3 形式语言与自动机简介

4， 自上而下分析的一般方法

4.1 基本思想

4.2 例题

4.3 消除左递归

4.4 提取左因子

5，FIRST集和FOLLOW集

5.1 FIRST集

5.2 FOLLOW

6，预测分析表

4，自上而下分析的一般方法