【Java】Jsoup格式化html问题(文本空格折叠等)解决方法

问题说明

Jsoup格式化html文本时,如:

java 复制代码
Document document = Jsoup.parse(html);

这里在对html进行格式化的时候会将如下内容:

html 复制代码
<p>      aaa   </p>

解析成如下格式:

html 复制代码
<p> aaa </p>

即空格折叠问题(HTML的格式规范);

解决方式

在看Jsoup的源码中发现有outputSettings设置类,并且有个属性"prettyPrint",属性在Jsoup的构造函数中是默认设置为true的,也就是会按照html格式规范进行格式化,将此属性设置为false即可将html原样输出,即:

java 复制代码
document.outputSettings(new Document.OutputSettings().prettyPrint(false));

即输出不必再按照html规范进行格式化,即可将处理后的html原样输出。

end。

相关推荐
人活一口气8 小时前
Spring Boot与AIGC的完美结合:从零搭建智能内容生成平台
java·spring boot·aigc
像我这样帅的人丶你还10 小时前
Java 后端详解(三):全局异常处理与 JPA 数据库映射
java·后端
NE_STOP11 小时前
vibe Coding -- 小项目实战
java
未秃头的程序猿16 小时前
Java 26正式发布!这3个新特性,让代码量直接减半
java·后端·面试
用户2986985301417 小时前
Word 文档文本查找与替换的 Java 实现方案
java·后端
阿哉17 小时前
Nacos 服务发现源码:藏在背后的两套事件机制,90%的人只讲了一半
java
咖啡八杯17 小时前
GoF设计模式——命令模式
java·设计模式·架构
AI人工智能_电脑小能手17 小时前
【大白话说Java面试题 第125题】【并发篇】第25题:说说 Java 线程的中断机制
java·后端·面试
Java内核笔记17 小时前
Spring Security 源码解析(六)无状态 JWT 实践:Session 共享与自定义过滤器
java·后端
荣码17 小时前
LangGraph多Agent协作:3个Agent干活比1个强,但我踩了4个坑
java·python