Java提取markdown中的表格

Java提取markdown中的表格

说明

这篇博文是一个舍近求远的操作,如果只需要要对markdown中的表格数据进行提取,完全可以通过正在表达式或者字符串切分来完成。但是鉴于学习的目的,这次采用了commonmark包中的工具来完成。具体实现过程如下

实现步骤

引入pom依赖

xml 复制代码
		<dependency>
            <groupId>org.commonmark</groupId>
            <artifactId>commonmark</artifactId>
            <version>0.21.0</version>
        </dependency>
        <dependency>
            <groupId>org.commonmark</groupId>
            <artifactId>commonmark-ext-gfm-tables</artifactId>
            <version>0.21.0</version>
        </dependency>

自定义vistor

java 复制代码
import org.commonmark.ext.gfm.tables.*;
import org.commonmark.node.*;

import java.util.ArrayList;
import java.util.List;

public class TableVisitor extends AbstractVisitor {
    private boolean inHeader = false;
    private boolean inBody = false;
    private List<String> currentRow = null;

    private List<String> headers = new ArrayList<>();

    private final List<List<String>> rows = new ArrayList<>();

    @Override
    public void visit(CustomBlock customBlock) {
        if (customBlock instanceof TableBlock) {
            handleTableBlock((TableBlock) customBlock);
        } else {
            super.visit(customBlock);
        }
    }

    @Override
    public void visit(CustomNode customNode) {
        if (customNode instanceof TableHead) {
            handleTableHead((TableHead) customNode);
        } else if (customNode instanceof TableBody) {
            handleTableBody((TableBody) customNode);
        } else if (customNode instanceof TableRow) {
            handleTableRow((TableRow) customNode);
        } else if (customNode instanceof TableCell) {
            handleTableCell((TableCell) customNode);
        } else {
            super.visit(customNode);
        }
    }

    private void handleTableBlock(TableBlock tableBlock) {
        // 重置状态
        inHeader = false;
        inBody = false;
        visitChildren(tableBlock);
    }

    private void handleTableHead(TableHead tableHead) {
        inHeader = true;
        visitChildren(tableHead);
        inHeader = false;
    }

    private void handleTableBody(TableBody tableBody) {
        inBody = true;
        visitChildren(tableBody);
        inBody = false;
    }

    private void handleTableRow(TableRow tableRow) {
        currentRow = new ArrayList<>();
        visitChildren(tableRow);

        if (inHeader) {
            this.headers = currentRow;
        } else if (inBody) {
            this.rows.add(currentRow);
        }
    }

    private void handleTableCell(TableCell tableCell) {
        if (currentRow != null) {
            currentRow.add(getTextContent(tableCell));
        }
        visitChildren(tableCell);
    }

    private String getTextContent(Node node) {
        StringBuilder sb = new StringBuilder();
        Node child = node.getFirstChild();
        while (child != null) {
            if (child instanceof Text) {
                sb.append(((Text) child).getLiteral());
            }
            child = child.getNext();
        }
        return sb.toString().trim();
    }

    public List<String> getTableHeaders() {
        return headers;
    }

    public List<List<String>> getTableRows() {
        return rows;
    }
}

测试用例

java 复制代码
    public static void main(String[] args) {

        String content = """
                | 姓名       | 性别   | 班级        | 年龄          |
                |--------------|------|--------------------|--------------------|
                | 张三       |  男    |   兴趣一班                 |             17       |
                | 李四         | 男 | 兴趣一班  | 16  |
                """;

        List<Extension> extensions = Arrays.asList(TablesExtension.create());
        Parser parser = Parser.builder().extensions(extensions).build();

        Node document = parser.parse(content);
        TableVisitor visitor = new TableVisitor();
        document.accept(visitor);

        List<String> tableHeaders = visitor.getTableHeaders();
        List<List<String>> tableRows = visitor.getTableRows();

        System.out.println("表头: " + tableHeaders);
        System.out.println("表格行数据: "+ tableRows);

    }

总结

由于没有在commonmark中找到我们需要的vistor,所以自定义了vistor。希望可以对其他同学有所帮助吧。

相关推荐
u01091476017 小时前
C#怎么实现OAuth2.0授权_C#如何对接第三方快捷登录【核心】
jvm·数据库·python
桌面运维家17 小时前
IDV云桌面vDisk机房部署方案模板特性解析
java·开发语言·devops
2301_7775993717 小时前
如何显著提升 Google Sheets 数据库批量更新脚本的执行效率
jvm·数据库·python
2201_7610405918 小时前
bootstrap怎么给div添加自定义的边框样式
jvm·数据库·python
Java后端的Ai之路18 小时前
当大模型开始“水土不服“:从通才到专才的进化论——Fine-tuning 企业级实战全攻略
人工智能·python·langchain·rag·lcel
weixin_5689960618 小时前
Golang怎么用K8s Job执行一次性任务_Golang如何用Job资源运行批处理和迁移任务【操作】
jvm·数据库·python
耿雨飞18 小时前
Python 后端开发技术博客专栏 | 第 09 篇 GIL 深度解析与并发编程实战 -- 多线程、多进程、协程的选型
开发语言·python
哈密瓜刨冰18 小时前
深入浅出 SpringMVC:核心注解全解析与实战用法
java
Ulyanov18 小时前
像素迷宫:路径规划算法的可视化与实战
大数据·开发语言·python·算法
源码之家18 小时前
计算机毕业设计:Python农产品销售数据可视化分析系统 Django框架 数据分析 可视化 大数据 大模型 机器学习(建议收藏)✅
python·信息可视化·数据分析·django·flask·课程设计