【编译原理】03语法分析

1,语法分析的若干问题

1.1 语法分析器的作用

编译器前端的重要组成部分:

(1) 根据词法分析器提供的记号流,为语法正确的输入构造分析树(或语法树)。

(2) 检查输入中的语法(可能包括词法)错误,并调用出错处理器进行适当处理。

语法分析器:

1、通用的语法分析方法

Cocke-Younger-Kasami算法和Earley算法

2、自上而下

对任何输入串,试图用一切可能的办法,从文法开始符号(根结点)出发,自上而下地为输入串建立一棵语法树;或者说为输入串寻找一个最左推导。

3、自下而上

自上而下的一般方法: 消除左递归 提取左因子 递归下降分析 预测分析器
语法分析器在编译器中的位置与作用

1.2 语法错误的处理原则

1.2.1.源程序中可能出现的错误

语法错误

词法错误:非法字符或关键字、标识符拼写错误等

语法错误:语法结构出错,如少分号、{/}不配对等

语义错误

静态语义错误涉及的是编译时可检查出来的错误,如类型不一致、参数不匹配等;

动态语义错误一般是指程序运行时的逻辑错误,如无穷递归、变量为零时作除数等。

大多数错误的诊断和恢复集中在语法分析阶段,一个原因是大多数错误是语法错误,另一个原因是语法分析方法的准确性,它们能以非常有效的方法诊断语法错误。在编译的时候,想要准确地诊断语义或逻辑错误有时是很困难的。

1.2.2.语法错误处理的目标

① 清楚而准确地报告错误的出现,地点正确、不漏报、不错报也不多报;

② 迅速地从每个错误中恢复过来,以便分析继续进行;

③ 对语法正确源程序的分析速度不应降低太多。

1.2.3.语法错误的基本恢复策略

希望编译器的语法分析方式不是遇到一个语法错误就停止,就需要采取某种恢复策略,使得分析在遇到错误时还能够继续进行。

紧急方式恢复:这是最简单的方法,适用于大多数分析方法。

短语级恢复:建立在产生式(CFG)的基础上,以短语为基本分析单元,同时也便于进行语法制导翻译,恢复得比紧急方式要精确,因此被认为是一种较为理想的恢复方式。

出错产生式

全局纠正

例题:

下述两条是有语法错误的语句,其中第一条赋值句结束时忘记加分号:x = a + b y = c + d;

紧急方式: x = a + b + d; -- 丢弃b之后的若干记号,直到遇到同步记号+

短语级恢复:x = a + b; -- 加入分号,使之成为一个赋值句

2,上下文无关文法(CFG)

2.1 CFG的定义与表示

2.1.1 定义

定义3.1 上下文无关文法是一个四元组G =(N,T,P,S):

① N是非终结符的有限集合(Nonterminals);

② T是终结符的有限集合(Terminals),且N∩T=Φ;

③P是产生式的有限集合(Productions),每个产生式形如: A→α,其中A∈N,被称为产生式的左部,α∈(N∪T)*,被称为产生式的右部,若α=ε,则称A→ε为空产生式(也可以记为A →);

④ S是非终结符,被称为文法的开始符号(Start symbol)。

2.2.2 例题:

定义简单算术表达式的上下文无关文法G3.1=(N,T,P,S)如下所示。

N={E} T={+,*,(,),--,id} S=E

P:

E → E + E (1)

E → E * E (2)

E → (E) (3)

E → --E (4)

E → id (5)

2.2.3 表示

1.由产生式集表示CFG

文法可以由其产生式集P代替,而不写四元组。CFG的产生式表示也被称为巴克斯范式(BNF),值得注意的是,规范的BNF中,"→"用"::="表示。

2.产生式的一般读法:

一般情况下,可以将产生式中的记号"→"读作"定义为"或者"可导出"。

3.终结符与非终结符书写上的区分

本教材默认采用区分大小写的方法来区分终结符与非终结符,若不作特殊说明,一般用大写英文字母A、B、C表示非终结符,小写英文字母a、b、c表示终结符,小写希腊字母α、β、δ表示任意的文法符号序列,即大小写混合的英文字母串。

4.产生式的缩写形式

2.2.2的例题 G3.1可以重写为如下形式:E → E + E | E * E | (E) | --E | id

2.2 CFG产生语言的基本方法 ------ 推导

2.2.1 推导定义以及性质

通过推导可以产生CFG所描述的语言。

推导就是从文法的开始符号S开始,反复使用产生式,将产生式左部的非终结符替换为右部的文法符号序列,直到得到一个终结符序列

2.2.2 例题:

文法G(E):

E → E + E (1)

E→ E * E (2)

E → (E) (3)

E → --E (4)

E → id (5)

根据文法G使用最左推导得出终结符序列 "--(id+id)" 。

2.2.3 上下文无关语言(CFL),最左推导

定义3.3

由CFG G所产生的语言L(G)被定义为:

L(G)称为上下文无关语言(CFL),ω称为句子。若Sα,α∈(N∪T)*,则称α为G的一个句型。

定义3.4

在推导过程中,若每次直接推导均替换句型中最左边的非终结符,则称为最左推导,由最左推导产生的句型被称为左句型。

类似地,可以定义最右推导与右句型,最右推导也被称为规范推导。

2.3 推导、分析树与语法树

定义3.5 对CFG G的句型,分析树被定义为具有下述性质的一棵树。

① 根由开始符号所标记;

② 每个叶子由一个终结符、非终结符或ε标记;

③ 每个内部结点由一个非终结符标记;

④ 若A→X1X2...Xn是一个产生式,则X1,X2,...,Xn是标记为A的内部结点从左到右所有孩子的标记。若A→ε,则标记为A的结点可以仅有一个标记为ε的孩子。
分析树与文法和语言存在下述关系:

① 每一直接推导(或者每个产生式),对应一棵仅有父子关系的子树,即产生式左部非终结符"长出"右部的孩子;

② 分析树的叶子从左到右,构成G的一个句型。若叶子仅由终结符标记,则构成一个句子。
分析树与推导的关系:

① 分析树是推导的图形表示,但不能显示推导的顺序;

② 每棵分析树都可以对应惟一的最左推导或最右推导;但每个句子(产生式)不一定只有一棵分析树,也就是说每个句子不一定只有一个最左推导或者最右推导。 例:句子id + id * id

例题:

用文法G采用最左推导产生句子id+id*id.


一个句子两棵分析树 (a) 先进行+运算;(b) 先进行*运算;(c) +左结合;(d) +右结合

2.4 二义性与二义性的消除

2.4.1 二义性(Ambiguity)

定义3.7 若文法G对同一个句子产生不止一棵分析树,则称G是二义的。
① 一个句型有多于一棵分析树,仅与文法和句型有关,与采用的推导方法无关;

② 造成二义性的原因,是文法中缺少对文法符号优先级和结合性的规定。

在任何一个程序设计语言中,如果出现了二义性,则表示同一段程序在确定的、相同的环境下反复执行,会得到不同的结果,而这种情况在程序设计中是不允许的。也就是说,任何一个程序设计语言不应该有二义性。

2.4.2 为文法符号规定优先级和结合性

改写文法可以解决二义性问题,但不是唯一的解决方法。比较上述讨论过的二义文法和非二义文法,发现二义文法至少有两个优点:

① 比非二义文法容易理解;

② 分析效率高(分析树低,直接推导步骤少)。

3,语言与文法简介

到目前为止,我们在两个层面上讨论了程序设计语言的结构:从词法分析的层面上看,语言是由字母组成的记号的集合;从语法分析的层面上看,语言是由记号组成的句子的集合。记号可以用正规式描述,句子可以用CFG描述。

程序设计语言的结构均可以用文法来描述。文法无论对程序设计语言的设计还是对编译器的编写,至少在以下三个方面起着重要作用:

① 文法给出了精确的、易于理解的语言结构的说明;

② 以文法为基础的语言,便于加入新的或修改、删除旧的语言结构;

③ 有些类别的文法,可以自动生成高效的分析器。

3.1.为什么用正规式而不用CFG描述程序设计语言的词法

根据推论3.1,CFG既描述程序设计语言的语法又描述词法,而基于下述几个原因,往往采用正规式而不是CFG描述词法:

① 词法规则简单,用正规式描述已足够;

② 正规式的表示比CFG更直观、简洁、易于理解;

③ 有限自动机的构造比下推自动机简单,且分析效率高;

④ 区分词法和语法,为编译器前端的模块划分提供方便。

3.2 正规式和CFG的适用条件

一般情况下,正规式适合描述线性结构,如标识符、关键字、注释等。而CFG适合描述具有嵌套(层次)性质的非线性结构,如不同结构的句子if-then-else、begin-end等。

3.3 形式语言与自动机简介

乔姆斯基(Chomsky)把文法分为四种类型: 0型、1型、2型和3型。文法之间的差异在于对产生式施加不同的限制。

定义3.8 若文法G=(N,T,P,S)的每个产生式α→β中,均有α∈(N∪T)*,且至少含有一个非终结符,β∈(N∪T)*,则称G为0型文法。

对0型文法施加以下第i条限制,即可得到i型文法。

1.G的任何产生式α→β(S→ε除外) 均满足|α|≤|β| (|x|表示x中文法符号的个数);

2.G的任何产生式形如A→β,其中A∈N,β∈(N∪T)*;

3.G的任何产生式形如A→a 或者A→aB(或者A→Ba),其中A,B∈N,a∈T。

0型文法也被称为短语文法,任何0型语言都是递归可枚举的,反之,递归可枚举集也必定是一个0型语言。

1型文法就是上下文有关文法,这种文法意味着对非终结符的替换必须考虑上下文,并且一般不允许换成ε串。例如,若αAβ→αγβ是1型文法的产生式,α和β不全为空,则非终结符A只有在左边是α,右边是β这样的上下文中才可能替换成γ。

2型文法就是上下文无关文法,非终结符的替换无需考虑上下文。

3型文法等价于正规式,因而也被称为正规文法或线性文法。

四种类型的文法和它们所描述的语言,以及识别对应语言的自动机分别列举在表中。

4, 自上而下分析的一般方法

4.1 基本思想

自上而下分析的基本思想是:对于任何一个输入序列,从文法的开始符号开始,进行最左推导,直到得到一个合法句子或者发现一个非法结构。在推导的过程中试图用一切可能的方法,自上而下、从左到右为输入序列建立分析树。整个分析是一种试探的过程,是反复使用不同产生式谋求与输入序列匹配的过程。

4.2 例题

已知如下文法G(S),给出输入序列ω=cad,自上而下试探建立分析树的过程。

G(S): S → cAd A → ab | a
试探性质的自上而下分析 (a) 匹配失败,回溯;(b) 匹配成功,接收

(1) 若存在形如A → αβ1|αβ2的产生式,即A产生式中有多于一个候选项的前缀相同(称为公共左因子,或简称左因子),则可能会造成虚假匹配,使得在分析过程中可能需要进行大量回溯,从而造成分析效率低、语义动作难以恢复以及出错位置的报告不确切等。

(2) 若存在形如A → Aα的产生式,则分析过程中一旦采用了该产生式去替换,就会陷入死循环而使分析无法进行下去。产生式的这种形式被称为左递归。

为了避免上述弱点,需要对文法进行重写。消除左递归,以避免陷入死循环;提取左因子,以避免回溯。

4.3 消除左递归

分类:直接左递归 间接左递归

规则1 直接左递归的产生式A→Aα|β (β不以A开头), A→βA' A'→αA'|ε

规则2 直接左递归的产生式 A→ Aα1 | Aα2 | ... | Aαm |β1 |β2 | ...|βn(所有βi均不以A直接开头或间接开头), A→β1A'|β2A'|...|βnA' A'→α1A'|α2A'|...αmA'|ε

并不是所有的文法都能消除左递归!!!

4.4 提取左因子

对于有左因子的文法,推导过程中会出现无法确定用A产生式的哪个候选项替换A的情况,这时,可以重写A产生式来推迟这种决定,直到看见足够的输入,能正确决定所需选择为止。这一过程类似于有限自动机的确定化,被称为提取左因子。

算法3.3 提取文法的左因子

输入 : 文法G

输出: 等价的无左因子文法G'

方法 :为每个产生式A,找出其候选项中最长公共前缀α,重排A产生式如下,其中γ是不以α为前缀的其他候选项。

A→ αβ1|αβ2| ...|αβn|γ

并用下述产生式替代之。

A→ αA'|γ

A'→ β1|β2| ...|βn

重复此过程,直到所有A产生式的候选项中均不再有公共前缀。

练习:

1、文法G(A):A→aABj | a B→Bb | d

2、文法G(M):M→MaH | H H→b(M) | (M) | b

3、文法G(S):S→AdD | ε A→aAd | ε D→DdA | b | ε

5,FIRST集和FOLLOW集

5.1 FIRST集

算法3.5 计算X的FIRST集合

输入 文法符号X

输出 X的FIRST集合

方法 应用下述规则:

① 若X是终结符,则FIRST(X)={X};

② 若X 是非终结符且有X→ε,则加入ε到FIRST(X);

③ 若X 是非终结符且有X→Y1Y2...Yk,并令Y0=ε,Yk+1=ε,则对所有j(0≤j≤k),若a∈FIRST(Yj+1)且ε∈FIRST(Yj),加入a到FIRST(X)。

5.2 FOLLOW

算法3.6 计算所有非终结符的FOLLOW集合

输入 文法G

输出 G中所有非终结符的FOLLOW集合

方法 应用下述规则:

① 加入#到FOLLOW(S),其中,S是开始符号,#是输入结束标记;

② 若有产生式A→αBβ,则除ε外,FIRST(β)的全体加入到FOLLOW(B);

③ 若有产生式A→αB或A→αBβ而ε∈FIRST(β),则FOLLOW(A)的全体加入FOLLOW(B)。

6,预测分析表

算法3.7 构造预测分析表

输入 文法G

输出 分析表M

方法 应用下述规则:

① 对文法的每个产生式A→α,执行②和③;

② 对FIRST(α)的每个终结符a,加入α到M[A,a];

③ 若ε在FIRST(α)中,则对FOLLOW(A)的每个终结符b(包括#),加入α到M[A,b];

④ M中其他没有定义的条目均是error。

预测分析表是一个二维数组M[A, a] 所有的非终结符构成分析表的行下标; 所有的终结符构成分析表的列下标,其中包括特殊的结束标志#。 M[A, a]中的内容表示当前栈顶为非终结符A且当前输入为终结符a时,分析器要进行的动作。

3.4.5.3 LL(1)文法

定义3.12 一个文法G被称为是LL(1)文法,当且仅当为它构造的预测分析表中不含多重定义的条目。由此分析表所组成的分析器被称为LL(1)分析器,它所分析的语言被称为LL(1)语言。第一个L表示从左到右扫描输入序列,第二个L表示产生最左推导,1表示在确定分析器的每一步动作时向前看一个终结符。
推论3.2 一个文法G是LL(1)的,当且仅当G的任何两个产生式A→α|β,满足下面条件: ① 对任何终结符a,α和β不能同时推导出以a开始的文法符号序列;

② α和β最多有一个可以推导出ε;

③ 若β ε,则α不能推导出以在FOLLOW(A)中的终结符开始的任何文法符号序列。
推论3.2实际上等价于当且仅当G的任何两个产生式A→α|β满足上述三个条件时,为文法G构造的预测分析表中不含多重定义的条目。反之,若不满足三个条件之一,则分析表中有多重定义条目。 若条件①不满足,即存在终结符a,α和β同时推导出以a开始的文法符号序列,则根据算法3.7规则②,M[A,a]中就会有多重定义条目A→α和A→β;

若条件②不满足,即α和β均可推出ε,则根据算法3.7规则③,任何属于FOLLOW(A)的终结符b(包括#),M[A,b]中就会有多重定义条目A→α和A→β; 若条件③不满足,即存在终结符b,它既在FOLLOW(A)中,又在FIRST(α)中,则 算法3.7规则②把条目A→α加入到M[A,b]中,而规则③又把条目A→β加入到M[A,b]中。
LL(1)文法的弱点: (1) 文法比较难写。因为按照人们习惯写出的文法,往往含有左递归和左因子。虽然有成熟的算法可以消除左递归和提取左因子,但改写之后的文法很难读也很难使用。同时对比分析树可以看出,改写后文法构造的分析树不直观且推导步骤增加。 (2) LL(1)文法适应范围有限,对于有些语言,往往写不出它的LL(1)文法。

相关推荐
密码小丑1 小时前
11月4日(内网横向移动(一))
笔记
鸭鸭梨吖2 小时前
产品经理笔记
笔记·产品经理
齐 飞2 小时前
MongoDB笔记01-概念与安装
前端·数据库·笔记·后端·mongodb
丫头,冲鸭!!!3 小时前
B树(B-Tree)和B+树(B+ Tree)
笔记·算法
听忆.3 小时前
手机屏幕上进行OCR识别方案
笔记
Selina K4 小时前
shell脚本知识点记录
笔记·shell
4 小时前
开源竞争-数据驱动成长-11/05-大专生的思考
人工智能·笔记·学习·算法·机器学习
霍格沃兹测试开发学社测试人社区5 小时前
软件测试学习笔记丨Flask操作数据库-数据库和表的管理
软件测试·笔记·测试开发·学习·flask
幸运超级加倍~5 小时前
软件设计师-上午题-16 算法(4-5分)
笔记·算法
王俊山IT5 小时前
C++学习笔记----10、模块、头文件及各种主题(一)---- 模块(5)
开发语言·c++·笔记·学习