Antlr4 初探

最近在看 Shardingjdbc 源码,其中 Sql 使用的语法解析器是 Antlr4,经过了解许多框架都使用 Antlr4 作为语法解析器。

简介

Antlr 全称(ANother Tool for Language Recognition),是一款强大的语法分析器生成工具,像推特、Hadoop、Oracle 等知名公司都在使用它来构建自己的语言处理类项目。

一门语言的正式描述称为语法,Antlr 可以为语言生成词法分析器,并自动建立语法分析树和树的遍历器,然后我们就能访问树的节点,执行自定义业务逻辑代码。

在实际使用 Antlr 时,我们不需要关心词法分析和语法分析的过程,只需定义语法规则以及处理最后的语法分析树即可。例如,可以通过环境配置(如使用 Idea 插件)、引入相关依赖(如在 Pom 文件中添加 Antlr 依赖)、编写自定义业务逻辑等步骤来实现基于 Antlr 的应用。

基本概念

词法分析器 (Lexer)

  • 词法分析是指在计算机科学中,将字符序列转换为单词(Token)的过程,简单理解就是分词的过程。
  • 所谓 Token ,就是源文件中不可再进一步分割的一串字符,类似于英语中单词,或汉语中的词。
  • ==词法分析器 (Lexer) 就是根据规则将文本(字符流)转换为单词(Token)的程序。==

语法解析器 (Parser)

  • 词法分析完成后,字符流就被转换为 Token 流了,接下来根据语言的语法规则来解析这个 Token 流,被称为语法解析。
  • 语法解析器通常作为编译器或解释器出现。==它的作用是进行语法检查,并将词法分析器(Lexer)输出的 Token 流解析成一个抽象语法树。==

抽象语法树 (Abstract Syntax Tree,AST)

抽象语法树是源代码结构的一种抽象表示,它以树的形状表示语言的语法结构。抽象语法树一般可以用来进行代码语法的检查,代码风格的检查,代码的格式化,代码的高亮,代码的错误提示以及代码的自动补全等等。

Antlr Grammar文件简介

下面是一个简单的 Grammar 文件 Expr.g4,定义了一个简单的四则运算语法规则。

c_cpp 复制代码
grammar Expr;
prog:    expr EOF ;
expr:    expr ('*'|'/') expr  #MultiOrDiv
    |    expr ('+'|'-') expr  #AddOrSub
    |    INT     #Lieteral
    |    '(' expr ')'   #Single
    ;
NEWLINE : [\r\n]+ -> skip;
INT     : [0-9]+ ;
  • grammar Expr: 声明一个名为 Expr 的语法规则
  • Grammar 文件中以小写字母开头的为语法规则,以大写字母开头的为词法规则,那么本规则中语法规则有 prog、expr,词法规则有 NEWLINE、INT
  • prog: 定义了一个语法规则,定义了一个 expr 表达式,后面跟着 EOF 标识文件结束
  • expr: 定义了一个递归语法规则,标识可以匹配 n+n、n*n、n-n、n/n、(n) 这样的四则运算,其中 n 必须是 INT,规则 prog 引用的表达式 expr 就是本规则。
  • NEWLINE: 定义了一个词法规则,表示条规一个或多个回车或换行符。
  • INT: 定义了一个词法规则,表示一个或多个 0-9 的数字

DEMO

安装 Antlr

安装 Anltr 的方式有很多种,可以安装系统命令行工具,也可以是 ide 插件,本文安装的是 idea 插件。其他方式可以参考 传送门

配置也很简单,我这主要配了根据规则生成的代码路径、已经生成的代码语言。

编写 Grammer 文件

这里直接使用上述讲解中使用的语法文件

c_cpp 复制代码
grammar Expr;
package org.apache.shardingsphere.example.parser.demo;
prog:    expr EOF ;
expr:    expr ('*'|'/') expr  #MultiOrDiv
    |    expr ('+'|'-') expr  #AddOrSub
    |    INT     #Lieteral
    |    '(' expr ')'   #Single
    ;
NEWLINE : [\r\n]+ -> skip;
INT     : [0-9]+ ;

使用插件解析语法树


根据 Grammer 文件生成代码


其中文件的含义:

  • ExprParser: 包含语法分析器的定义,专门用来识别我们的语言。
  • ExprLexer: 词法分析器的定义,将输入字符分解为词汇符号;
  • ExprLexer.tokens: antlr4 会将我们定义的词法符号指定一个数字类型,然后将对应的关系存储在这个文件中。
  • ExprListener: antlr4 在遍历语法树的时候,遍历器会触发一系列的事件,通知我们的监听器;ExprListener 是监听器的接口定义 ExprBaseListener 是监听器的空实现。
  • ExprVisitor: 如果我们想要自己显示的自定义遍历语法树,可以使用 Visitor 来遍历树,ExprBaseVistor 是默认的空实现。

==生成代码后,还需要引入对应的依赖==

xml 复制代码
<dependency>
    <groupId>org.antlr</groupId>
    <artifactId>antlr4</artifactId>
    <version>4.13.1</version>
</dependency>

编写主程序

java 复制代码
public class ExprDemo {

    public static void main(String[] args) {
        // 构建字符流
        CodePointCharStream charStream = CharStreams.fromString("1+2+3*4");

        // 从字符流分析词法, 解析为token
        ExprLexer lexer = new ExprLexer(charStream);

        // 从token进行分析
        ExprParser parser = new ExprParser(new CommonTokenStream( lexer) );

        // 使用监听器,遍历语法树,根据语法定义,prog为语法树的根节点
        ExprParser.ProgContext prog = parser.prog();
        ParseTreeWalker walker = new ParseTreeWalker();
        walker.walk( new ExprBaseListener(), prog );

        // 使用visitor,生成自定义的对象
        Object accept = prog.accept(new ExprBaseVisitor<>());

        System.out.println(accept);

        // 打印生成的语法树
        System.out.println( prog.toStringTree(parser));

    }

}

自定义 Visitor

java 复制代码
public class EvalExprVisitor extends ExprBaseVisitor<Integer> {

    @Override
    public Integer visitProg(ExprParser.ProgContext ctx) {
        ExprParser.ExprContext expr = ctx.expr();
        return visit(expr);
    }

    @Override
    public Integer visitAddOrSub(ExprParser.AddOrSubContext ctx) {
        Integer expr1 = visit(ctx.expr(0));
        Integer expr2 = visit(ctx.expr(1));
        if ("+".equals(ctx.getChild(1).getText())) {
            return expr1 + expr2;
        } else {
            return expr1 - expr2;
        }
    }

    @Override
    public Integer visitSingle(ExprParser.SingleContext ctx) {
        return visit(ctx.expr());
    }

    @Override
    public Integer visitLieteral(ExprParser.LieteralContext ctx) {
        return Integer.valueOf(ctx.INT().getText());
    }

    @Override
    public Integer visitMultiOrDiv(ExprParser.MultiOrDivContext ctx) {
        Integer expr1 = visit(ctx.expr(0));
        Integer expr2 = visit(ctx.expr(1));
        if ("*".equals(ctx.getChild(1).getText())) {
            return expr1 * expr2;
        } else {
            return expr1 / expr2;
        }
    }
}

验证结果

java 复制代码
public class ExprDemo2 {

    public static void main(String[] args) {

        List<String> testSet = Arrays.asList(
                "1+2",
                "1+2+3*4",
                "3/3",
                "10/2",
                "5*5+10+5*5",
                "6+5*(1+2)"
        );

        List<Integer> res = Arrays.asList(
                3, 15, 1, 5, 60, 21
        );

        for (int i = 0; i < testSet.size(); i++) {
            // 构建字符流
            CodePointCharStream charStream = CharStreams.fromString(testSet.get(i));

            // 从字符流分析词法, 解析为token
            ExprLexer lexer = new ExprLexer(charStream);

            // 从token进行分析
            ExprParser parser = new ExprParser(new CommonTokenStream(lexer));

            // 使用监听器,遍历语法树,根据语法定义,prog为语法树的根节点
            ExprParser.ProgContext prog = parser.prog();


            // 使用visitor,生成自定义的对象
            Integer integer = prog.accept(new EvalExprVisitor());
            System.out.println(integer);
            Assert.assertEquals(integer, res.get(i));
        }
    }

}

到此,上述的内容已经足以满足我研究 Shardingjdbc 的 Sql 语法解析了,如果对 Listener 感兴趣的可以参考 传送门

参考

github.com/antlr/antlr...

iamazy.github.io/2020/02/12/...

juejin.cn/post/717405...

注:本文中的例子引用自

juejin.cn/post/717405...

相关推荐
wm104334 分钟前
java web springboot
java·spring boot·后端
龙少95432 小时前
【深入理解@EnableCaching】
java·后端·spring
溟洵4 小时前
Linux下学【MySQL】表中插入和查询的进阶操作(配实操图和SQL语句通俗易懂)
linux·运维·数据库·后端·sql·mysql
SomeB1oody7 小时前
【Rust自学】6.1. 定义枚举
开发语言·后端·rust
SomeB1oody7 小时前
【Rust自学】5.3. struct的方法(Method)
开发语言·后端·rust
啦啦右一8 小时前
Spring Boot | (一)Spring开发环境构建
spring boot·后端·spring
森屿Serien8 小时前
Spring Boot常用注解
java·spring boot·后端
盛派网络小助手10 小时前
微信 SDK 更新 Sample,NCF 文档和模板更新,更多更新日志,欢迎解锁
开发语言·人工智能·后端·架构·c#
∝请叫*我简单先生10 小时前
java如何使用poi-tl在word模板里渲染多张图片
java·后端·poi-tl
zquwei11 小时前
SpringCloudGateway+Nacos注册与转发Netty+WebSocket
java·网络·分布式·后端·websocket·网络协议·spring