自研 DSL 神器：万字拆解 ANTLR 4 核心原理与高级应用

本文已收录至GitHub，推荐阅读 👉 Java随想录

微信公众号：Java随想录

DSL（领域特定语言）是一种为解决特定领域的问题而专门设计的计算机语言，它不同于通用编程语言（如 Python、Java）。它通常具有高度定制化的语法和结构，聚焦于某个特定任务或领域（如数据库查询、硬件配置、报表生成），通过提供更简洁、直观且贴近领域术语的表达方式，大幅提升该领域人员的工作效率和生产力，降低复杂性。

通俗来说，DSL 就像是为某个专业领域量身定做的"行话"工具。

说到构建自定义 DSL，高效且灵活的语法解析至关重要，ANTLR 正是解决这一核心挑战的利器。

简介

官方地址：www.antlr.org/
GitHub：github.com/antlr/antlr...
在线调试：lab.antlr.org/
IDEA插件：ANTLR V4

ANTLR 4（AN other T ool for L anguage Recognition，版本4）是一个开源的解析器生成器工具，用于构建语言识别程序。它能够根据用户定义的语法规则，自动生成词法分析器（Lexer）和语法分析器（Parser），从而实现对结构化文本（如编程语言、配置文件、数据格式等）的解析、转换或翻译。

ANTLR 4 最大的核心价值就是降低语言处理的门槛。在ANTRL 4没有出现之前，语言处理主要依赖正则表达式、手工编写解析器以及早期的解析器生成工具（如Lex/Yacc）。

ANTLR 4 的使用很简单，因为其存在的本身的意义就是为了加快语言类应用程序的编写速度，就是为了非专业人员对语言类应用程序快速开发而生的。

首先我们要进行ANTLR 4元语言的编写，也就是需要我们根据我们自己的需要来编写一份语法文件，一份后缀为 .g4 的文件，这份文件是我们构建ANTLR 4语言类应用程序的基础，目前ANTLR 4已经支持了数十种编程语言的生成，可以满足不同语言的开发需求。

官方也提供了相关的文件，GitHub：github.com/antlr/gramm...

有了这些 Java 文件，语言类应用程序的开发人员就不需要再去思考如何手动编写解析语法树的程序，因为ANTLR 4已经帮我们把这些事情都做了，ANTLR 4自带的jar 包和自动生成的这些语法分析器以及之后所提到的监听器 Listener 和访问器 Visitor 都能够完美的帮我们来处理任何语言类应用程序的自定义需求，从而真正达到即使你没学过编译原理也能自己开发应用程序的效果。

ANTLR 是用 Java 编写的，因此你需要首先安装 Java，哪怕你的目标是使用 ANTLR 来生成其他语言（如C#和C++）的解析器。

下图是我使用 IDEA 中的 ANTLR 4 插件，以及我自己编写的语法，自动生成的语法解析树，这一切都是ANTLR 4帮我们自动完成的。

简而言之，ANTLR 工具将语法文件转换成可以识别该语法文件所描述的语言的程序。例如，给定一个识别 JSON 的语法，ANTLR工具将会根据该语法生成一个程序，此程序可以通过 ANTLR 运行库来识别输入的 JSON。

基础概念

文件声明

以下是一个包含完整头部声明的 ANTLR 4 语法文件示例，涵盖所有关键字的解释：

java 复制代码

// =========== ANTLR4 语法文件头部声明示例 ===========
grammar MathParser;  // [1] 主声明

// [2] 导入声明（组合语法）
import TrigParser, VectorParser;  // 导入其他语法模块

// [3] 选项配置
options {
    language = Java;        // 目标生成语言
    tokenVocab = CoreTokens; // 从外部语法导入词法符号
    superClass = MathBase;   // 自定义基类
    contextSuperClass = MyCtx; // 自定义上下文基类
}

// [4] 辅助符号声明
tokens {
    // 显式定义新token
    PI = 'π';           // 带字面量的token
    FUNCTION_CALL,     // 无字面量的抽象token
    VECTOR_DOT_PRODUCT // 用于语法树节点的标签
}

// [5] 头部注入 (生成文件顶部的代码)
@header { 
    package com.company.math;
    import static com.company.math.TrigUtil.*;
}

// [6] 成员注入 (向解析器类添加代码)
@members {
    private boolean debug = true;
    private int errorCount = 0;
    
    @Override
    public void reportError(RecognitionException e) {
        errorCount++;
        super.reportError(e);
    }
    
    public int getErrorCount() {
        return errorCount;
    }
}

// [7] 规则定义区
expression: /* 规则内容 */;
// ========================================

grammar：定义语法名称（必须匹配文件名），声明完整/词法/解析语法类型。
import：导入外部语法文件实现规则复用，支持模块化开发。语法导入允许你将语法分解成可复用的逻辑单元。ANTLR 处理被导入的语法的方式和面向对象语言中的父类非常相似。一个语法会从其导入的语法中继承所有的规则、词法符号声明和具名的动作。位于"主语法"中的规则将会覆盖其导入的语法中的规则，以此来实现继承机制。ANTLR将被导入的规则放置在主语法的词法规则列表末尾。这意味着，主语法中的词法规则具有比被导入语法中的规则更高的优先级。
options：配置代码生成选项（目标语言/基类/符号表等）。
tokens：声明辅助符号（抽象Token/别名/语法树标签）。tokens 区域存在的意义在于，它定义了一份语法所需，但却未在本语法中列出对应规则的词法符号。大多数情况下，tokens 区域用于定义本语法中动作所需的词法符号类型。
@header：向生成文件顶部注入代码（包声明/导入语句）。用于将代码注入生成的识别类中的类声明之前。用于将代码注入为识别类的字段和方法。
@members：向解析器类添加自定义成员（字段/方法/状态管理）。

关于 @header 和 @members，其中 @header 用于当 ANTLR 4 工具生成词法分析器和语法分析器时，将 @header 中的内容原封不动的复制到生成的 Java 文件的顶部，而 @members 用于将代码插入到生成的 Java 类当中，其中可以包含字段声明，自定义方法等内容。

从图中我们可以看到我们预先在语法文件中进行了 @header 和 @members 的定义和编写，然后利用 ANTLR 4 工具自动生成我们所需要的词法解析器和语法分析器等相关的 Java 文件，后续生成的这些 Java 文件中的相关位置包含了我们在 @header 和 @members 中所定义的相关内容。

不带前缀的语法声明是混合语法，可以同时包含词法规则和语法规则。欲创建一份只允许语法规则出现的文件，使用如下声明：

java 复制代码

parser grammar Name;

同理，纯词法的文件如下所示：

java 复制代码

lexer grammar Name;

词法规则

词法文件的规则以大写字母开头。

将字符聚集为单词或者符号（词法符号，token）的过程称为词法分析（lexicalanalysis）或者词法符号化（tokenizing）。我们把可以将输入文本转换为词法符号的程序称为词法分析器（lexer）。词法分析器可以将相关的词法符号归类，例如INT（整数）、ID（标识符）、FLOAT（浮点数）等。当语法分析器不关心单个符号，而仅关心符号的类型时，词法分析器就需要将词汇符号归类。词法符号包含至少两部分信息：词法符号的类型（从而能够通过类型来识别词法结构）和该词法符号对应的文本。

Java 词法规则示例：

接下来介绍一下词法规则是如何编写的。

如上图所示词法规则以大写的字母开头，或者以冒号开头后跟大写字母，这样做是为了与之后所要介绍的语法规则做区分。例如上图中我们就给出了一些示例的规则，定义了INT，ID，STRING类型的词法单元，冒号后面是对这些词法单元的描述。

这种词法规则的类型被称之为标准词法符号类型，这一类词法规则必须用大写字母开头，经过ANTLR 4工具处理会生成可直接在解析器中引用的符号，其规则匹配的优先级由在语法文件中声明词法规则的顺序和词法规则的长度来决定。

其中有很多符号，比如"+"代表着 INTEGER 这一词法规则使用出现至少一次的自然数组成的，而 IDENTIFIER 这一规则中的"*"则代表着 IDENTIFIER 这一词法规则是由大小写字母或下划线加上至少出现0次的单词字符组成的。而 STRING 词法规则中单引号中间的内容则代表着中间的内容直接匹配，是固定的。

第二类词法规则被称之为片段规则，通过关键字 fragment 来定义。

片段规则具有以下特点：首先片段规则是不能独立匹配的，fragment 规则不能直接用于匹配输入文本。它们只能被其他非片段的词法规则所引用。

将一条规则声明为 fragment 可以告诉 ANTLR，该规则本身不是一个词法符号，它只会被其他的词法规则使用。这意味着我们不能在文法规则中引用 HEX_DIGIT。

通常使用片段规则是为了提高可读性和重用性，通过将常用的字符模式提取为片段规则，可以使词法规则更加简洁和易于维护。例如，可以将字母或数字的模式定义为片段规则，然后在多个词法规则中引用它们。

第三类词法规则被称之为指令规则。

第一种被称之为跳过指令，ANTLR 4在词法分析过程中会忽略这些匹配的空白字符，不会将它们作为（token）传递给语法分析器；
第二种被称之为通道指令，使用 -> channel(HIDDEN) 指令，ANTLR 将这些注释标记发送到一个隐藏通道，使得它们不会被默认的语法分析器处理，但仍然可以在需要时访问；
第三种被称之为模式指令，使用 -> pushMode(XML_MODE) 指令，ANTLR 会切换到 XML_MODE 模式，这允许在不同的上下文中使用不同的词法规则集；
最后一种被称之为类型指令，使用 -> type(DOLLAR_SIGN) 指令，ANTLR 会将匹配的标记类型动态设置为 DOLLAR_SIGN，这可以用于在语法分析中对不同类型的标记进行区分和处理。

语法规则

语法文件的规则以小写字母开头。

首先我们来介绍语法规则的规则组成元素。

以上名为 assignment 的语法规则中所包含的大写字母序列 IDENTIFIER 被称之终结符，它来自词法分析器，我们在词法规则中会对其进行定义。

与此相对的是非终结符，比如以上 expression 语法规则中的 term，这些非终结符，由小写字母命名，并且由其他规则所定义。

除了之前介绍的终结符和非终结符两种元素之外，还有带参数的规则和带返回值的规则。因此，参数和返回值也是语法规则的重要元素。