在一段混合文本中提取json对象

提出问题

假设有这样一段文本,里面混入了一些json字符串,我们需要把json字符串提取出来。网上大部分解决方案是正则表达式/{.*?}/,但是正则的方法有很多局限性。比如下文这个例子,如果正则使用非贪婪模式,匹配会在"alice"后面的第一个"}"停下来,如果开启贪婪模式,则会把两个json当作一个。

sql 复制代码
Some text before {"key1":"value1","key2":{"alice":"alice"},"key3":{"bob":"bob"}} some text in between {"key4":"value4"} some text after.

解决

我查了Google和ChatGPT,都没有一个现成的解决方案。看来只能发挥自己动手丰衣足食的精神了。

这个问题其实非常经典的栈数据结构的应用题,就是判断括号是否匹配的问题。如果前面有两个左括号,后面必须有两个右括号,才是完整的。那我们就实现一下。

java 复制代码
    /**
     * 提取json信息
     * 
     * @param content
     * @return
     */
    protected static List<String> extractJson(String mixedContent) {
        List<String> result = new ArrayList<>();
        Stack<Integer> stack = new Stack<>();
        Boolean slash = false;
        for (int i = 0; i < mixedContent.length(); i++) {
            if (slash) {
                // 忽略所有的转义字符
                slash = false;
                continue;
            }
            if (mixedContent.charAt(i) == '{') {
                stack.push(i);
            } else if (mixedContent.charAt(i) == '}') {
                if (stack.isEmpty()) {
                    // System.out.println("没有对应的开括号,位置:" + i);
                    continue;
                }
                int start = stack.pop();
                String json = mixedContent.substring(start, i + 1);
                if (stack.size() == 0) {
                    result.add(json);
                }
            } else if (mixedContent.charAt(i) == '\') {
                slash = true;
            }
        }
        // if (!stack.isEmpty()) {
        // System.out.println("没有对应的闭括号,位置:" + stack.pop());
        // }
        return result;
    }

因为我的场景都是json对象,都是从"{"开始的,因此我只处理了花括号{},至于花括号内部是否是一个正确的 json的问题,交给后续的 json 解析库去处理。

因为我只需要提取合法的部分,所以这里的两个报错信息被我注释掉了,如果需要严格的判断可以处理这两个错误信息。

同时简单处理了转义字符。因为他无关我们的闭合检查,所以直接忽略掉。

这段代码对我当前的需求算够用的,想完美一点,并且支持更多场景的话,可以继续补充完善,比如可以把[]和双引号也考虑进来,原理是一样的。

应用

这个业务场景是我需要设计一个 word 填充模版,填充项有各种类型,比如单选、日期、纯文本、富文本等等。我需要从 word 中解析出这些被填充项作为表单给到前端去填写,因为这样可以避免格式问题,从而有更好的交互体验。填写完之后,还需要把前端表单的内容填充进 word 模板并导出。

我使用了 json 来定义我的填充项,所以需要解决从段落中解析出所有 json 对象的场景。下面是完整的解决方案代码,放在 github,欢迎大家提出宝贵意见。

github.com/yszc/office...

相关推荐
谎言西西里6 小时前
LeetCode 热题100 --- 双指针专区
算法
leo__5209 小时前
基于两步成像算法的聚束模式SAR MATLAB实现
开发语言·算法·matlab
前端小白在前进9 小时前
力扣刷题:在排序数组中查找元素的第一个和最后一个位置
数据结构·算法·leetcode
CoderJia程序员甲10 小时前
GitHub 热榜项目 - 日榜(2025-12-24)
ai·开源·llm·github
某林21211 小时前
基于SLAM Toolbox的移动机器人激光建图算法原理与工程实现
stm32·嵌入式硬件·算法·slam
修炼地11 小时前
代码随想录算法训练营第四十三天 | 图论理论基础、深搜理论基础、卡码网98. 所有可达路径、797. 所有可能的路径、广搜理论基础
算法·深度优先·图论
iAkuya11 小时前
(leetcode)力扣100 23反转链表(迭代||递归)
算法·leetcode·链表
剪一朵云爱着11 小时前
PAT 1095 Cars on Campus
算法·pat考试
LBJ辉12 小时前
第 4 章 串
数据结构·考研
MicroTech202512 小时前
激光点云快速配准算法创新突破,MLGO微算法科技发布革命性点云配准算法技术
人工智能·科技·算法