词法分析考试做题必备注意点！

基本概念

首先，我们要解释几个基本概念：

有穷自动机(有限自动机)

它是一种计算模型，可以想象为一个机器，这个机器在给定的输入上运行，可能会到达一个"接受"状态或一个"拒绝"状态。简单地说，它用来决定是否接受或拒绝一个给定的字符串。

如果接收一个给定的字符串，就说明这个字符串属于某个正规集，也就是说，这个来自于输入缓冲区的字符串能够被划分为独立的token。

正规集、正规文法和正规式

正规集：是一组字符串的集合，这些字符串都满足某种规则。

正规文法：是一种用来生成正规集的语法规则。

正规式：是一种表达式，用来描述正规集。例如，我们经常看到的正则表达式就是正规式的一种。

DFA 和 NFA

DFA (确定性有限自动机)：是一种有限自动机，对于每个状态和输入，都有一个明确的下一个状态。

NFA (非确定性有限自动机)：也是一种有限自动机，但与DFA不同，对于某些状态和输入，可能有多个可能的下一个状态。

有限自动机是用来识别正规集的。这意味着，给定一个字符串，有限自动机可以告诉我们这个字符串是否属于某个正规集。这与正规文法和正规式有关，因为正规文法定义了如何生成正规集，而正规式描述了正规集的内容。下面，让我们仔细讲解一下：

在编译器的词法分析阶段，输入的源代码被分解成一系列的词法单元，也叫做tokens。这些tokens是语言的基本构建块，如关键字、变量名、操作符等。

词法分析器使用正则表达式（或正规式）来描述每种token的模式。例如，可能有一个正则表达式来描述一个有效的整数，另一个描述有效的变量名等。

当词法分析器读取输入缓冲区中的字符串时，它使用由这些正则表达式定义的模式来尝试匹配字符串。这种匹配的过程通常是通过有限自动机（如DFA）来实现的，因为DFA可以高效地对字符串进行匹配。

因此，当词法分析器识别出一个字符串与某个正则表达式（或正规式）匹配时，这意味着它已经成功地将这部分字符串划分为一个独立的token。然后，这个token将被传递到下一阶段的语法分析器进行进一步的处理。

画图注意点

Φ状态画不画？

题目中出现y-1->Φ，y经过1字符生成Φ，那么在状态图中需不需要考虑画上去？

如果题目中指出，从状态 y 出发，通过字符 1 可以转移到一个"空"状态或者说"无效"状态（通常用 Φ 或 ε 表示），那么在绘制DFA（确定性有限自动机）或NFA（非确定性有限自动机）的状态转移图时，这通常意味着该转移是无效的。

在DFA中，每一个状态****对于所有的输入字符都应该有明确的转移，所以要画Φ。如果一个状态对于某个字符的转移指向了 Φ，那么这意味着这是一个"陷阱"状态或"死状态"。一旦进入此状态，对于任何进一步的输入，机器都将停留在该状态，并且不能接受。
在NFA中，转移到 Φ 是可以的，但它通常在具体的状态图中省略，因为NFA允许有不明确的转移。

在状态图中，如果我们正在绘制一个DFA并且一个状态有一个转移指向 Φ，那么应该考虑画出这个"死状态"并将转移指向它；如果正在绘制一个NFA，那么通常可以省略指向 Φ 的转移，除非题目要求明确表示。

Φ状态怎么画？

在有限自动机的状态转移图中，死状态通常被表示为一个普通的状态，但它是特殊的，因为一旦机器进入这个状态，它将不再离开，对于其后的任何输入都将保持在该状态。这就是为什么它被称为"死状态"。

你可以为这个状态赋予一个标识，例如 "D" 或者 "q_dead"。在图中，它看起来就像其他的状态，通常是一个圆圈 。但是，从这个状态出发的所有可能的输入字符转移都指回到它自己（DFA中）。

对于DFA（确定性有限自动机）来说，每一个状态都必须对输入字符集中的每一个字符都有一个明确的转移。所以，如果某个状态是死状态，它必须对输入字符集中的所有字符都有转移，并且这些转移都指向它自己。
以字符集Σ={a,b} 为例，死状态 "D" 必须有两个转移：一个对于字符 a，另一个对于字符 b，而且这两个转移都指向 "D" 本身。

p这是DFA的一个关键特性：每个状态都必须对所有可能的输入字符有明确的转移。而死状态正是这个特性的一个例子：即使一个状态不再进行有意义的计算，它仍然需要对所有输入有明确的响应，即在此例中保持在同一个死状态。它不会特别标记为 "Φ"。

矩阵中的Φ状态

假设我们有状态集合：{q0, q1, q2, D} 和输入字符集 Σ={a,b}。状态转移矩阵可能是这样的：

python 复制代码

      a   b
-------------
q0 | q1  D
q1 | q2  q0
q2 | D   q1
D  | D   D

如果DFA有一个死状态，那么在状态转移矩阵中，我们应该明确地表示这个死状态。这是为了确保矩阵完整地描述了DFA的所有转移。

简而言之，DFA的所有状态表示形式，都要加D状态，并且考虑其所有输入字符！

至于用什么标识来表示死状态，这取决于你的选择。"DEAD" 是一个很清晰的标识，它清楚地告诉读者这个状态的意义。其他常见的标识包括 "D"、"q_dead" 或其他类似的名字。关键是保持一致性并确保选择的标识在整个上下文中都是明确的。

DFA状态最小化注意点

不断根据现得等价关系反推之前的关系

每当我们得到一个新的划分，我们需要重新检查所有的子集来确定其中的状态是否仍然是等价的。这是一个迭代的过程。

例如，5，6，7在之前划分下是等价的，如果在一次划分后，我们发现状态5、6、7对于某个输入符号产生了不同的转移，导致它们不再等价，那么我们需要将它们进一步划分。相应地，如果由于状态5、6、7的新的划分，导致其他集合中的某些状态不再等价，那么我们也需要再次划分其他集合。

这个过程继续进行，直到在一个完整的迭代中，没有任何新的划分发生为止。当我们达到这一点时，我们知道我们已经找到了最小的DFA。

实际上，这就是Hopcroft的DFA最小化算法的工作方式，该算法在最坏情况下的时间复杂度是O(n log n)，其中n是DFA的状态数。

假定等价之下努力反推不等价！

现在我们假设有这个情况：{C,F}在当前划分下是等价的，C经0是C，F经0是F。C经1是E，F经1是E。第二种情况的E好判断，C、F是拟等价，但是第一种情况应该怎么判断啊？

当考虑两个状态是否等价时，我们需要检查以下两点：

这两个状态对于每个输入符号的转移是否都进入相同的状态或等价状态的集合中。

这两个状态的"结束状态"属性是否相同（即两者都是结束状态，或两者都不是）。

根据你提供的信息：

C经0转移到C，而F经0转移到F。由于C和F在当前划分下被认为是等价的，这意味着它们对于符号0的转移是等价的。

C和F在输入1时都转移到E。因此，对于输入1，它们的转移也是等价的。

这意味着，对于所有给定的输入，C和F都转移到相同或等价的状态。我们再细致地讲解一下，为什么" C经0转移到C，而F经0转移到F "可以看作转移到等价状态：

作者观点：我们无法通过任何方法证明现在的CF不等价，所以CF等价。

在DFA最小化的上下文中，我们从一种假设开始：状态是等价的，除非有证据显示它们是不等价的。当两个状态对于所有可能的输入都产生相同或等价的转移时，我们没有理由认为这两个状态是不等价的。****（这一段非常重要，看懂就赢了！）

因此，只有我们找到一个明确的证据（如对于某个输入，两个状态转移到不等价的状态，或者其中一个状态是结束状态而另一个不是），我们才会认为这两个状态不等价，否则二者是等价的。

继续推演，现在情况是：{1,2}能经过某一字符推导到{6,7}，而{6,7}最后也能经过某一字符推导到{1,2}，同时它们经过其他字符都能推出拟等价状态。

说明当前状态下{1,2}和{6,7}是否等价是互相依赖的，我们假定等价，则两组状态确实都可以分别等价，我们无法通过任何方法证明现在的两组状态不是分别等价的，所以两组状态分别等价。

这是一个互递归或循环依赖的情境，即两个状态或状态集合的等价性相互依赖。